学习经历几乎可以说是这个领域发

而我们训练的所有数据,都是由人类标注员逐一查看并标注的。 而算法的重大突破在于,我们现在知道如何在不依赖人类标注的数据上进行训练。对于一个没有  背景的普通人来说,似乎如果你在训练人类数据,人类实际上已经进行了标注,只是这种标注并不是显式的。  是的,哲学上来说,这是一个非常重要的问题,但这个问题在语言领域比在图像领域。

更为真实是的,但我确实认为

这是一个重要的区别。CLIP 确实是由人类标注的。我认为自注意力机制是人类已经理解了事物之间的关系,然后你通过这些关系进行学习。 所以它仍然是由人类标注的,只不过这种标注是隐式的,而不是显式的。区别在

于,在监督学习时代,我们的

这样可以实现高度定制的消息传递,确保每 目标电话号码或电话营销数据 个客户都能接到与他们相关的电话。虽然电话号码列表通常与消费者电话营销有关,但它们在营销活动中也很有价值。企业可以编制目标公司决策者或关键联系人的名单,从而在商业环境中更直接地推销产品或服务。

学习任务受到更多限制。我们必须设计出一套我们想要发现的概念本体论。 比如在 ImageNet 中,和她的学生们花了很多时间思考 ImageNet 挑战赛中的一千个类别应该是什么。而在同时期的其他数据集,如用于目标检测的COCO数据集,他们也花了很多心思去决定放入哪些80个类别。  那么让我们谈谈生成式  。当我攻读博士学位的时候,在你们出现之前,我上过 Andrew Ng 的机器学习课程,还学过 Daphne Koller 非常复杂的贝叶斯课程,对我来说这些都很复杂。 当时的很多内容都是预测建模。我还记得你解锁了整个视觉领域的。

目标电话号码或电话营销数据

东西,但是生成式  大约是在过

去四年中才出现的。这对我 学习经历几乎可以说是这个领域发 来说是一个完全不同的领域——你不再是识别物体,也不是在预测什么,而是在生成新的东西。 所以也许我们可以谈谈是什么关键因素让生成式  得以实现,它和之前的不同之处,以及我们是否应该以不同的方式去看待它,它是否是一个连续发展的部分还是另一个全新的领域? Feifei Li 这非常有趣。

即使在我研究生时代,生成

模型就已经存在了。我们当 电话号码 sa 时就想做生成,只不过没人记得了,即使是用字母和数字做生成,我们也在尝试一些事情。Jeff Hinton 当时有一些关于生成的论文,我们也在思考如何生成。 实际上,如果你从概率分布的角度来看,数学上是可以进行生成的,只是当时生成的东西根本无法让人感到惊艳。所以,尽管从数学理论上来看生成的概念是存在的,但实际上没有任何生成效果让人感到满意。 然后我想特别提到一位博士生,他在深。

度学习方面有着浓厚的兴趣,来到了我

的实验室。这个博士生的整个博士展轨迹的缩影。 他的第一个项目是数据,我逼着他做,尽管他不喜欢,但事后他也承认学到了很多有用的东西。“现在我很高兴你能这么说。”于是我们转向深度学习,核心问题是如何从图像生成文字。实际上,这个过程中有三个明确的阶段。 第一个阶段是将图像和文字进行匹配。我们有图像,也有文字,接下来我们要看它们之间的关联度。我的第一篇学术论文,也是我的第一篇博士论文,研究的就是基于场景图的图像检索。接下来,我们继续深入研究。

从像素生成文字这方面他和 

都做了很多工作,但依然是一种非常有损的生成方式,信息从像素世界中获取时损失很大。 中间阶段有一个非常著名的工作,那个时候有人第一次实现了实时化。2015 年,一篇叫《神经算法的艺术风格》的论文由 Leon Gatys 领导发表。他们展示了将现实世界的照片转换为梵高风格的图片。 我们现在可能习以为常,但那是在 2015 年,那篇论文突然出现在 arXiv 上,震惊了我。我感觉大脑中被注入了一种“生成  的病。

毒我心想:天哪我需要理解这

个算法,玩一玩,试着把自己的图片变成梵高风格。” 于是,我花了一个长周末重新实现了这个算法,让它能够正常运行。其实它是一个非常简单的算法,我的实现大概只有 300 行代码,当时是用Lua写的,因为那时候还没有 PyTorch,我们用的是 Lua Torch。不过尽管算法简单,它的速度很慢。每生成一张图片,你都需要运行优化循环,耗费很多时间。生成的图片很漂亮,但我就是希望它能更快一点。最后,我们确实让。

它变快了 还有一点我非常自豪

的是,在生成  真正走向世界之前,他在博士研究的最后一部分做了一个非常前沿的工作。这个项目是通过输入自然语言来生成完整的图像,这可以说是最早的生成  工作之一。我们使用的是GANs,但当时它非常难用。问题是,我们还没有准备好用自然语言来描述一幅完整的图像。 于是,他采用了一个场景图结构输入方式,输入内容是“羊群”、“草地”、“天空”等,并用这种方式生成了一幅完整的图像。 从数据匹配到风格转换。

再到生成图像,我们逐渐看到了一个完整的转变。你问这是否是一个巨大的变化,对于像我们这样的人来说,这是一个持续的过程,但对于大众而言,成果确实显得突然且具有冲击力。  我读了你的书,真是一本很棒的书,我强烈推荐大家去读。而且,Fei-Fei,我想说的是,长期以来,你的很多研究和方向都聚焦于空间智能、像素处理等领域。现在你在做的 World Labs 也和空间智能相关。能谈谈这是你长期旅程的一部分吗?你为什么现在决定去做这个?这是否。

是某种技术突破或个人原因?你能否带我们从  研究的背景过渡到 World Labs?  对于我来说,这既是个人的追求,也是智力上的旅程。你提到了我的书,我的整个智力旅程实际上是一种对“北极星”的追寻,同时也坚信这些北极星对于我们领域的进步至关重要。 在一开始的时候,我还记得研究生毕业后,我认为我的北极星是“为图像讲故事”,因为对我来说,这是视觉智能的一个重要组成部分,也就是你所说的  的一部分。 但是,当  和 Andrej 完成他们的工作时,我想:“天哪,这就是我一生的梦想,我接下来要做什么?”这个进展比我预期的快得多——我本以为需。

要一百年才能实现这些。 视觉智能始终是我的热情所在。我坚信,对于每一个有智能的存在,比如人类、机器人,或者其他形式的存在,学会如何看待这个世界、如何推理、如何与世界互动是至关重要的。无论是导航、操控、制造,甚至是构建文明,视觉和空间智能都在其中扮演着基础性角色。 它的基础性可能和语言一样,甚至在某些方面更加古老和。

基本。因此,World Labs的北极星,就是解锁空间智能,而现在是正确的时机。 就像  说的那样,我们已经具备了所需的资源——计算能力和对数据更深的理解。与 ImageNet 时代相比,我们在数据理解上变得更加复杂。 我们也拥有了算法方面的进展,比如我们的共同创始人 Ben Mildenhall 和 Christoph Lassner 在 Nerf 方面的前沿工作。我们觉得现在是下定决心、专注这一领域并解锁其潜力的最佳时机。  为了让大家理解清楚,你现在创办了这家公司——World Labs,而你。

们要解决的问题就是“空间智能”。你能简明扼要地描述一下,什么是空间智能吗?  空间智能指的是机器理解、感知、推理并在 3D 空间和时间中采取行动的能力。具体来说,它是指理解物体和事件如何在 3D 空间和时间中定位,以及世界中的交互如何影响这些 3D 位置。 这不仅仅是让机器停留在数据中心或主机中,而是让它走向现实世界,去理解这个丰富的 3D 、4D 世界。 

你说的这个“世界”是指现实的物理世界,还是一种抽象概念上的世界?  我认为两者兼有。这也代表了我们长期的愿景。即使你是在生成虚拟世界或内容,定位于 3D 中仍然有很多好处。或者当你在识别现实世界时,能够将 3D 理解应用到真实世界中也是其中的一部分。

 

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部