戍天九思：李飞飞再出王炸：1亿张开源图，能否撑起AI“...

lameihua · 发表于昨天 09:00

　　2026年5月28日，斯坦福大学的李飞飞团队扔下了一枚“数据炸弹”——她们开源了一个名为GPIC的巨型图片数据集，包含1亿张照片，总像素接近28万亿。每张图片都配有从关键词到长段落的多层次文字描述，且全部免费商用。

　　这让人不禁想起2009年那个同样由李飞飞主导的ImageNet。彼时，她从互联网下载了十亿张图片，最终筛选出1500万张标注图像，用一场数据驱动的“豪赌”点燃了深度学习革命。如今，当全世界还在为大语言模型的“文字游戏”疯狂时，李飞飞再次用数据开路，指向了一个更宏大的目标——空间智能。

　　但这一次，1亿张图片，真的够用吗？

　　一、GPIC是什么？为什么它不只是“另一个ImageNet”

　　GPIC的全称是“用于视觉生成的巨型许可图片语料库”，名字很长，但核心就三点：大、干净、标准化。

　　“大”很好理解——1亿张照片，总数据量约12.9TB，分成8000个数据分片，可直接用于大规模分布式训练。

　　“干净”是GPIC最值钱的地方。团队从Flickr和Wikimedia收集了超过1.1亿张图片，但只保留明确允许商用的。接着用Qwen3 VL 4B模型自动筛选，踢掉模糊、空白、不安全的图片，淘汰率约1%。然后用SSCD拷贝检测技术去重，连拍照片、转发图、修改版只保留一张。最终留下的，是真正意义上的“干净数据”。

　　“标准化”则是GPIC的杀手锏。它为每张图片设计了四种描述方式：标签式（1%）、短描述（45%）、中描述（45%）、长描述（9%）。从“一只猫”到“一只橘色虎斑猫正趴在蓝色沙发上，阳光从左侧窗户照进来，在地板上投下菱形阴影”——这种多层次标注，让AI既能快速检索，也能理解复杂的空间关系。

　　更关键的是，GPIC解决了AI生图领域的两大顽疾：版权隐患和可重复性危机。以前大公司训练模型，图片来路不明，官司缠身；很多数据集给的是链接，时间久了就失效，别人根本没法复现实验。GPIC把所有图片打包成固定tar文件存在Hugging Face上，任何时候下载都一样，许可证清清楚楚。

　　团队还设计了一套公平的“考试规则”：1亿张图分成训练集（1亿）、验证集（20万）、测试集（100万）。测试时只能用测试集中5万条描述生成图片，再用FD DINOv2指标与真实图片对比。他们甚至训练了一个参考模型当“及格线”——JiT架构，1.1亿参数，得分76.25，不算高，但给后来者立了个标杆。

　　二、空间智能：为什么大语言模型是“黑暗中的文字匠”？

　　要理解GPIC的战略意义，必须先理解李飞飞押注的“空间智能”到底是什么。

　　在2025年的一次YC访谈中，李飞飞说了一句让全场安静的话：“没有空间智能的AGI是不完整的。”她不是否定语言模型，而是指出一个被忽视的真相——当前AI是“黑暗中的文字匠”：能言善辩，却无经验；知识丰富，却缺乏根基。

　　什么是空间智能？用李飞飞的话说，是“机器在3D空间和时间中感知、推理和行动的能力”。她举过一个经典例子：一只猫推倒玻璃杯，人类大脑能瞬间通过物体在三维空间中的位置关系，预测接下来会发生什么——玻璃会碎、水会洒、人可能要打扫。这种对物理世界的直觉理解，正是当前AI最缺的东西。

　　为什么缺？因为大语言模型本质上是在二维平面（文字序列）上做“下一个token预测”，Sora生成的视频再逼真，也只是像素层面的模拟，没有真正的三维立体理解能力。就像柏拉图洞穴寓言里的囚徒，只能看到墙上的影子，却永远触不到真实的物体。

　　李飞飞认为，理解三维世界、生成三维世界、推理三维世界、在三维世界中做事，是人工智能的基本问题。这也是她创办World Labs的初衷——不是做另一个ChatGPT，而是构建“世界模型”，让AI真正“看见”并“理解”物理世界。

　　三、1亿张图，够撑起空间智能吗？

　　答案是：这是必要的第一步，但远远不够。

　　1.从2D到3D的“维度鸿沟”

　　GPIC解决的是视觉生成的基础数据问题，但空间智能需要的是三维结构信息。一张二维照片，哪怕标注再详细，也丢失了一个维度的空间数据。李飞飞团队此前发布的World Labs首个产品，已经能从单张图片生成可交互的3D世界，用户可以用WASD键在场景中行走、调整景深、改变光影。但这只是“生成”，离“理解”还有距离。

　　真正的空间智能需要深度图、点云、法线贴图、物理属性（质量、材质、摩擦系数）——这些GPIC并没有直接提供。团队也承认，高质量的合成数据和额外模态（如深度、触觉）在训练关键阶段不可或缺。

　　2. 数据规模的“缩放法则”还在吗？

　　大语言模型的成功，很大程度上归功于“缩放法则”——数据越多、参数越大、算力越强，性能就越好。但视觉数据远比文本复杂：一张高清图片的像素信息量，可能是同样大小文本的数百倍。28万亿像素听起来惊人，但换算成“有效世界知识”，可能还不及GPT-4训练用的文本语料。

　　更棘手的是，空间智能需要的不是“看更多图”，而是“理解图背后的物理规律”。这需要算法能从二维图像中“反推”三维结构——一个至今没有完美解决的计算机视觉难题。

　　3. 开源生态的“飞轮效应”

　　但GPIC的真正价值，或许不在数据本身，而在生态。

　　17年前，ImageNet开源+挑战赛的模式，让全世界最聪明的研究者都参与到视觉识别中来，最终等来了AlexNet的爆发。今天，GPIC同样在走这条路：免费商用、标准统一、附带“考试大纲”，让AI公司能在同一起跑线公平竞争。

　　2026年4月，World Labs已经开源了3D高斯溅射渲染引擎Spark 2.0，可在网页端实现亿级3D场景实时渲染，从闭源产品转向“产品+开源生态”的双轨策略。GPIC的加入，相当于给这个生态补上了最关键的“燃料”——数据。

　　四、空间智能的商业图景：从游戏到机器人

　　如果空间智能真的突破，最先受益的会是谁？

　　游戏和影视是最直接的场景。World Labs的首个产品Marble，目标客户就是游戏开发商和电影制片厂。想象一下：上传一张概念草图，AI自动生成可探索的3D关卡，美术师只需要调整细节——这将彻底改变内容生产流程。

　　机器人是更大的赌注。李飞飞团队此前发布的VoxPoser，已经能让机器人通过语言指令自主规划行动路径。如果AI真能理解三维世界的物理规律，机器人就能走出实验室，在真实环境中自主决策——从家庭服务到工业制造，想象空间巨大。

　　AR/VR则是连接虚拟与现实的桥梁。空间智能让AI能实时理解用户周围的三维环境，AR眼镜才能真正从“炫技玩具”变成“生产力工具”。

　　World Labs的融资历程也印证了资本的信心：成立3个月估值超10亿美元，累计融资超2.3亿美元，英伟达、AMD、Adobe、a16z等巨头纷纷入局，连图灵奖得主Geoffrey Hinton都以个人名义跟投。

　　五、结语：数据是种子，但革命需要土壤

　　李飞飞用GPIC再次证明了一件事：在AI领域，数据基础设施的战略价值，绝不亚于算法和算力。

　　1亿张图片，28万亿像素，解决了视觉生成的“温饱问题”——让研究者不再为版权和可重复性发愁，让创业者能用上免费的高质量“教科书”。但空间智能的真正突破，还需要更多：更先进的三维传感器、能从2D反推3D的算法、模拟物理规律的神经渲染技术，以及最关键的——让AI在真实世界中“试错”的具身智能平台。

　　李飞飞说过：“我整个职业生涯都在追逐那些极其困难、近乎疯狂的问题。”从ImageNet到GPIC，从计算机视觉到空间智能，她始终在做一个“种树人”——先埋下数据的种子，然后等待整个社区一起浇灌。

　　1亿张图能不能撑起空间智能的梦？或许不能独自完成。但它至少铺好了第一条轨道，让后来者知道：通往AGI的下一站，不在语言的迷宫里，而在三维世界的星辰大海中。

		自动登录	找回密码
密码			立即注册