家觉得这些模型既能处理像素也能处理语

你们的共同创始人团队真是非常强大。那你觉得为什么现在是做这件事的合适时机呢？这实际上是一个长期进化的过程。在博士毕业后，我开始寻找成为独立研究员的道路，并且思考和计算机视觉领域中的大问题。当时我得出的结论是，过去十年主要是在理解已经存在的数据，而接下来的十年将会是理解新的数据。过去的数据，主要是网络上已经存在的图像和视频，而未来的数据则是全新的——智能手机出现了，这些手机有相机，有新的传感器，并且可以在世界中定位。这不仅仅是你从互联网上获取一堆像素并试图判断这是一只猫还是一只狗的问题了。

我们希望把这些图像当作

与物理世界的通用传感器，帮助我们理解世界的和4D 结构，无论是在物理空间还是生成空间中。博士毕业后，我做了一个很大的转变，进入了计算机视觉领域，与我的同事们一起研究如何预测物体的形状。后来，我对通过数据学习结构的想法产生了浓厚的兴趣。我们讨论数据时常会提到，获取数据很难，但实。

际上图像是世界的

有关您的推广计划效果的深刻信息。通过手机号码数据使用这些分析，充分利用您的整体推广计划和电话号码列表。您的冷门推广尝试可以通过自动化简化。有许多解决方案可用于跟踪通话结果。跟进潜在客户，并自动拨号。自动化保证持续推广到您的整个列表，同时节省时间。定制对于有效的冷门推广至关重要。

投影，这里有很多可以利用的数学结构。即便你有大量的 2D 数据，你也可以通过这些数学结构推导出世界的结构。 2020年是一个突破性时刻。我们的共同创始人 Ben Mildenhall 提出了 Nerf （神经辐射场）方法。

是一种非常简单、清晰的方式

可以通过 2D 观测推导出结构，点燃了整个 D 计算电子商务管理公司必须具备的 4 个功能机视觉领域。与此同时， LLM 也开始崭露头角。很多语言建模的工作实际上在学术界已经发展了很长时间。即使在我的博士阶段，我也与 Andrej Karpathy 在 2014 年进行了一些语言建模工作。这其实是出现在 Transformer 之前的事情，但到了 GPT-2 的时代，你在学术界已经很难再做这样的模型了，因为它们需要的计算资源太大了。然而，有趣的是，Ben 提出的 Nerf 方。

法，只需要在单个上训练几

个小时。这让很多学术研究者开始重新聚焦电话号码 sa 于这些问题，因为可以在有限的计算资源下解决一些核心算法问题，而且你可以在单个 GPU 上获得最先进的成果。所以当时很多学术研究者都在思考：我们如何通过核心算法来推动这个领域的发展？我和Fei-Fei聊了很多，我们都非常确信这一点。是的，我们发现我们的研究方向在某。

种程度上正朝着相似的目标前

进。我还想讲述一个很有趣的技术问题，或者说一个关于像素的技术故事。很多从事语言研究的人可能不知道，在生成时代之前，我们这些从事计算机视觉领域的人，实际上有一个很长的历史，叫做重建的研究。这可以追溯到上世纪70年代，你可以通过拍摄照片——因为人类有两只眼睛，所以可以用立体照片来尝试三角测量，构建形状。然而这是一个非常难的问题，至今尚未完全解决，因为存在匹配问题等复杂情况。这个领域有着长期的进展，但是当 Nerf 和生成方法结合，尤其是在扩散模型的背景下，重建与生成突然。

开始融合。在计算机视觉领域内，我

们突然发现，如果我们看到某个东西，或者想象某个东西，二者都可以汇聚到生成它的方向。这是一个非常重要的时刻，但很多人可能没有注意到这一点，因为我们没有像谈论 LLM 那样广泛讨论它。对，在像素空间中有重建，例如你重建一个真实的场景；而如果你看不到那个场景，则会使用生成技术。这两者实际上是非常相似的。整个对话中你一直在谈论语言和像素，或许这是一个好时机来讨论空间智能与语言方法的对比，比如它们。是互补的，还是完全不同的？我认为它们是互补的。我不确定如何定义“完全不同”，但我可以尝试做。

个对比。如今，很多人都在谈论

开放以及多模态模型。大言。那么它们是否能实现我们想要的空间推理呢？为了回答这个问题，我们需要打开这些系统的“黑箱”，看看它们是如何在底层工作的。语言模型和我们现在看到的多模态语言模型，其底层的表示是“一维的”。我们谈论上下文长度、 Transformer 、序列、注意力机制，但归根结底，这些模型的表示是基于一维的序列化令牌。这种表示在处理语言时是非常自然的，因为文本本身就是由一维的离散字母序列组成的。这种一维表示是 LLM 成功的基础，现在我。

们看到的多模态 LLM 也是如此，它们

其他模态（如图像）“硬塞进”这种一维的表示中。而在空间智能领域，我们的思路正好相反——我们认为世界的三维本质应该成为表示的核心。从算法的角度来看，这为我们处理数据和获得不同类型的输出提供了新的机会，帮助我们解决一些截然不同的问题。即使从一个粗略的层面来看，你可能会说：“多模。

也能看图像。”确实可以，但它们在处理图像时没有将三维的本质置于其方法的核心。我完全同意，讨论一维与三维表示的根本性区别是非常核心的。此外，还有一个稍微哲学化的观点，但对我来说同样重要：语言本质上是一种纯生成的信号，世界上不存在语言。你走到大自然中不会看到天上写着文字。无论你输入什么数据，语言模型几乎都可以通过足够的。

泛化将相同的数据吐出来，这就是语言生成的特质。但 3D 世界不同，它遵循物理法则，拥有自己的结构和材料。能够从根本上提取这些信息，进行表示和生成，这是一种完全不同的问题。尽管我们会借鉴语言模型中的一些有用的想法，但从根本上来说，这是一个不同的哲学问题。对，所以语言模型是一维的，可能是对物理世界的不良表示，因为它是人类生成的，带有损失。而另一个生成模型的模态是像素，即 2D 图像和视频。如果你看视频，可以看到。

场景，因为摄像机可以平移。那么空间智能与 2D 视频有什么不同呢？这里有两点值得思考。一是底层的表示，二是用户体验的便利性。这两者有时会让人混淆。我们感知的是 2D ——我们的视网膜是二维的结构，但我们的大脑将其视为三维世界的投影。你可能希望移动物体、移动摄像机，原则上你可以用二维的表示和模型来做这些事情，但它并不适合解决你提出的问题。动态三维世界的二维投影可能可以建模，但将三维表示放在模型的核心，能够。

更好地适应问题的需求。我们的目标是将更多的三维表示融入模型的核心，从而为用户提供更好的体验。这也与我的“北极星”相关。为什么我们强调“空间智能”，而不是“平面像素智能”？因为智能的发展轨迹，如果你回顾进化史，它的最终目的是让动物和人类能够在世界中自由移动、互动，进而创造文明，甚至是做一片三明治。因此，将这种 3D 的本质转化为技术，是释放无数潜在应用的关键，即便有些看起来只是表面上的进步。我认为这是一个非常微妙却至关重要的观点。或许我们可以通过谈论一些应用场景来进一步深入讨论。

我们希望把这些图像当作

际上 图像是 世界的