Meta、谷歌、特斯拉,竞争对手联合起来吐槽OpenAI!Sora不懂物理世界,它只是GPT3! 原创 精选

2024-02-23
关注
编辑  | 言征出品 | 51CTO技术栈(微信号:blog51cto)上周,OpenAI的第一个视频生成模型Sora在互联网上疯传。然而,与此同时,一批来自竞争对手公司的人工智能专家和研究人员迅速分析和批评了Sora的Transformer模型,引发了物理辩论。 Gary人工智能科学家 Marcus也在其中,他不仅批评Sora生成视频的准确性,还直接将矛头指向视频合成的生成人工智能模型。图片1、OpenAI的竞争对手联合在一起!Sora的扩散模型结构引起了Meta和谷歌研究人员的怀疑,他们认为这个模型并没有真正理解物理世界。LeCun认为,仅仅从提示中生成看似逼真的视频并不意味着系统地理解物理世界。他指出,生成与世界模型中的因果预测非常不同。看似合理的视频空间很大,视频生成系统只需要成功生成样本。LeCun也有自己的解决方案——Meta最新的AI模型V-JEPA与Sora不同,JEPA不是生成性的,而是在表示空间中进行预测。这是为了使V-JEPA的自我监控模型看起来优于Sora的扩散Transformer模型。Eric研究员也是企业家 Xing支持Lecun的观点,他说:“基于理解的代理模型必须超过LLM或DM。”Gemini Pro 1.5发布的时机再好不过了。Sora制作的视频是在Geminini 1.5 在Pro上运行,模特批评视频中的不一致性,认为“这不是真实场景”。马斯克紧随其后。他说,特斯拉的视频生成能力在预测精确物理方面优于OpenAI。尽管专家们很快否认了生成模型的能力,但对模型背后“物理”的理解却被忽视了。2、真正懂物理的Transformer?Sora使用类似GPT模型的Transformer架构,OpenAI相信该基础将“理解和模拟现实世界”,这将有助于实现AGI。虚幻引擎5生成的数据虽然不被称为物理引擎,但可以用来训练Sora的底层模型。Jim,NVIDIA高级研究科学家 通过解释数据驱动的物理引擎,Fan澄清了OpenAI的Sora模型。“Sora通过大量视频梯度下降,在神经参数中隐含学习物理引擎,”他说。他称Sora为可学习模拟器或世界模型。范也表达了他对Sora简化论的反对。“我看到一些声音反对:‘Sora不是在学物理,它只是在操纵2D中的像素’。我恭敬地不同意这种简化主义的观点。这类似于说,‘GPT-4不是在学习编码,而是在采样字符串。好吧,transformer所做的就是操纵整数序列(令牌ID).神经网络只操纵浮点数。他说:“这不是正确的论点。3、Perplexity创始人Aravindity仍处于GPT-3时刻 Srinivas最近一直在社交媒体上发言,他还发言支持Lecun。“现实是,Sora虽然令人惊叹,但还没有准备好准确模拟物理。有趣的是,OpenAI本身在任何人指出之前就已经指出了模型的局限性。该公司的博客称,Sora可能很难准确地模拟复杂场景的物理特征,因为它可能无法理解因果关系的具体例子。它还可能与提示的空间细节混淆,如遵循特定的相机轨迹。Fan还将Sora比作2020年的“GPT-当时模特需要“大量的提示和标记”。然而,这是“第一次令人信服地证明上下文学习是一个新的特征”。当前的限制不会影响产生的输出质量。去年8月,当OpenAI收购数字产品公司Global时 Illumination,当公司创建开源游戏Biomes(类似于我的世界)时,通过自动代理构建视频生成和模拟模型平台的范围是一些猜测。现在,随着Sora的发布,颠覆电子游戏产业的可能性只会升级。如果Sora处于GPT-3时刻,那么它的GPT-4时刻该如何理解呢?在此之前,怀疑论者将继续辩论,并可能给对方上一两节课。图片4、Meta 昨天,Meta和Lecun支持的答案Open 人工智能Sora共同发布了一种新的人工智能模型,称为视频联合嵌入预测架构(V-JEPA)。V-通过分析视频中对象之间的交互,JEPA提高了机器对世界的理解。该模型延续了Meta副总裁兼首席人工智能科学家Yann LeCun的愿景是创造类似于人类学习的机器智能。 去年发布的I-JEPA的第五次迭代已经从抽象的比较图像而不是像素本身扩展到视频。除了空间信息外,还引入了时间(基于时间)动力学的复杂性,通过学习图像到视频来促进预测方法。V-JEPA预测视频中缺失的部分,而无需重新创建每一个细节。它从未标记过的视频中学习,这意味着它可以开始学习,而不需要人类分类的数据。 这种方法使V-JEPA更有效,需要更少的训练资源。该模型特别擅长从少量信息中学习,比旧模型更快,资源密度更低。该模型的开发包括屏蔽大多数视频。这种方法是让V-JEPA在没有详细数据的情况下,根据有限的上下文进行猜测,帮助他们理解复杂的场景。V-JEPA关注的是视频中发生的事情的总体概念,而不是具体的细节,比如树上单叶的运动。V-JEPA在测试中显示出有希望的结果,它使用了一小部分通常需要的数据,优于其他视频分析模型。这种效率被认为是人工智能向前迈出的一步,使其能够在不进行广泛再培训的情况下将模型应用于各种任务。 未来,Meta计划将扩展V-JEPA的功能,包括增加声音分析,提高其理解长视频的能力。 这项工作支持Meta更广泛的目标,即促进机器智能,使其更像人类一样执行复杂的任务。V-JEPA是基于知识共享的非商业许可证,允许世界各地的研究人员探索和建立该技术。
您觉得本篇内容如何
评分

相关产品

CSMS 中科微感 人工智能+嗅觉传感器(AI-Nose) 气体传感器

中科微感逐步攻克了制约人工嗅觉传感发展的核心材料、硬件、算法等技术,开发出了以新型纳米敏感材料为基础,以微纳加工技术为支撑,以人工智能算法为核心的第一代 MEMS 基金属氧化物半导体原理的人工嗅觉传感器产这一产品将解决当前制约人工智能嗅觉技术与市场应用发展的关键问题:提供量产化的高一致、低成本、微型化的嗅觉传感器阵列硬件,以及提供标准化的人工智能+嗅觉气味感知软件平台,使客户能够快速构建和应用气味数据模型

XKCON 祥控 弹药库环境温湿度异常报警与智能监控系统 温湿度变送器

济南祥控自动化设备有限公司自主研发的XKCON祥控弹药库环境温湿度异常报警与智能监控系统采用物联网、传感器、大数据、人工智能等先进技术,能够对弹药库环境温湿度信息实现数字化、可视化管理。

山东美安 矿山电机车防追尾道岔口报警器 控制器及系统

煤矿用机车防追尾保护装置 机车防追尾保护装置是一种矿用人工智能保护装置、具有防追尾保护、无线触发沿途弯道语言保护、输出控制并记录等功能可广泛的使用在矿山井下、井上的运输机车上。

KEYENCE 基恩士 AI-1000C 图像匹配传感器

因此,人工智能系列能够在模式匹配的基础上对物体进行稳定的检测和识别,而这是基于强度或距离的传感器难以实现的。 基于强度或距离的传感器难以实现。

云传物联 水质生态浮标浮台在线测系统 多参数监测系统

电子水质监测解决方案利用信息控制与处理、人工智能、自动化、物联网及多媒体等技术,集水质参数在线采集、无线传输、智能处理、超限报警、远程管理等功能于一体的水质监测解决方案。

DINSEE 鼎信智慧科技 DX-WPS100-SP2... CMOS图像传感器

针对传统配电线路人工巡检效率低、周期长等问题,鼎信智慧结合物联网、红外热成像、人工智能等技术,研发了配电线路图像视频双光球机在线监测装置。

大立科技 DM60-W3 红外体温快速筛检

红外热成像体温快速筛检系统DM60-W3系列为384*288/640*480像素,人工智能算法,远距离、大场景测温更精准。

Maike 迈科光电 MK-PB4023PS&ALS&VC-A01E 接近传感器

EM30918、STK3311-X、STK3321、APDS-9900 ,9901、TMD2772WA、RPR0521RS、VCNL4035X01 WH4530A),广泛应用于平板电脑、工控显示类产品、智能家居、AI人工智能等场景,联想笔记本电脑,九安医疗的测温仪,微步数码的平板等都应用了我们这颗传感器,已量产批量出货。

Handsome 翰德圣 HDSELM V1.1 安全传感器和系统

设备全生命周期管理平台融合的物联网、云计算、大数据、人工智能、优化制造、再制造六项主流技术,通过云端模块化的架构可为企业灵活管理设备,不仅可以随时随地了解设备运行状态、发现故障隐患,还能够通过大数据分析指导企业维修

评论

您需要登录才可以回复|注册

提交评论

提取码
复制提取码
点击跳转至百度网盘