Google DeepMind近日发布了Genie 3,这是其最新的基础世界模型,该AI实验室表示这是通往人工通用智能(AGI)道路上的重要里程碑。
"Genie 3是首个实时交互的通用世界模型,"DeepMind研究总监Shlomi Fruchter在新闻发布会上表示。"它超越了以往狭窄的世界模型,不局限于任何特定环境。它既能生成逼真的世界,也能创造想象中的世界,以及介于两者之间的一切。"
目前仍处于研究预览阶段且尚未公开发布的Genie 3,基于其前身Genie 2(可为智能体生成新环境)和DeepMind最新的视频生成模型Veo 3(具有深度物理理解能力)构建而成。
通过简单的文本提示,Genie 3可以生成长达数分钟(相比Genie 2的10-20秒大幅提升)的多样化、可交互3D环境,帧率达24fps,分辨率为720p。该模型还具备"可提示的世界事件"功能,即能够通过提示改变生成的世界。
最重要的是,Genie 3的模拟在时间上保持物理一致性,因为该模型能够记住此前生成的内容——这是DeepMind研究人员未明确编程的涌现能力。
Fruchter表示,虽然Genie 3明显对教育体验和游戏等生成媒体或创意概念原型制作有重要意义,但其真正的价值在于训练执行通用任务的智能体,这对实现AGI至关重要。
"我们认为世界模型是通往AGI的关键,特别是对于具身智能体,模拟现实世界场景尤其具有挑战性,"DeepMind开放性团队研究科学家Jack Parker-Holder在发布会上说道。
Genie 3旨在解决这一瓶颈。与Veo类似,它不依赖硬编码的物理引擎,而是通过记忆已生成内容并在长时间范围内推理,自学世界如何运作——物体如何移动、下落和相互作用。
"该模型采用自回归方式,即逐帧生成,"Fruchter在单独采访中告诉TechCrunch。"它必须回顾之前生成的内容来决定接下来会发生什么。这是架构的关键部分。"
这种记忆能力为模拟世界创造了一致性,而一致性使其能够形成对物理的直觉理解,类似于人类理解桌边摇摇欲坠的玻璃杯即将掉落,或应该低头躲避坠落物体。
这种长时间模拟连贯、物理合理环境的能力使Genie 3远超生成模型的范畴,成为通用智能体的理想训练场。它不仅能生成无数多样的探索世界,还有潜力将智能体推向极限——迫使它们适应、挣扎并从自身经验中学习,这种方式反映了人类在现实世界中的学习过程。
目前,智能体可执行的动作范围仍然有限。例如,可提示的世界事件允许广泛的环境干预,但这些干预不一定由智能体本身执行。同样,准确建模共享环境中多个独立智能体间的复杂交互仍然困难。Genie 3也只能支持几分钟的持续交互,而适当的训练需要数小时。
尽管如此,Genie 3在教授智能体超越输入反应、进行规划、探索、寻求不确定性并通过试错改进方面迈出了令人信服的一步——这种自驱动的具身学习是迈向通用智能的关键。
"我们还没有真正迎来具身智能体的Move 37时刻,让它们能在现实世界中采取新颖行动,"Parker-Holder说道,他指的是2016年DeepMind的AI智能体AlphaGo与世界冠军李世石围棋对弈中的传奇时刻,AlphaGo下出了非常规且精彩的一步,成为AI发现超越人类理解的新策略能力的象征。
"但现在,我们可能开启一个新时代,"他说。
Q&A
Q1:Genie 3相比前代产品有什么重大突破?
A:Genie 3是首个实时交互的通用世界模型,相比Genie 2的10-20秒,它能生成长达数分钟的3D环境,帧率达24fps,分辨率720p。最重要的是,它具备记忆能力,能保持物理一致性,并拥有"可提示的世界事件"功能,可通过提示改变生成的世界。
Q2:为什么说Genie 3是通往AGI的关键技术?
A:Genie 3能为通用智能体提供理想的训练环境。它不依赖硬编码物理引擎,而是自学世界运作规律,能生成无数多样的探索世界,推动智能体进行自驱动学习——通过规划、探索和试错来改进,这种具身学习是实现通用智能的关键。
Q3:Genie 3目前还有哪些技术限制?
A:目前Genie 3的智能体可执行动作范围有限,难以准确建模多个独立智能体间的复杂交互,且只能支持几分钟的持续交互,而适当训练需要数小时。该技术仍处于研究预览阶段,尚未公开发布。
好文章,需要你的鼓励
Stripe联合创始人John Collison最近与Anthropic CEO Dario Amodei(达里奥·阿莫代)进行了一次对话。
南加州大学团队开发了Voxlect方言识别系统,使用超过200万语音样本训练AI识别11种语言的方言差异。研究发现地理相邻方言更易混淆,多语言模型性能优于单语言模型。该技术可应用于语音识别公平性分析和语音合成质量评估,为构建更包容的AI语音技术奠定基础,代码已开源供研究使用。
ByteDance Seed团队联合清华大学推出的Seed Diffusion Preview模型,通过离散状态扩散技术实现了每秒2146个token的超高代码生成速度,比传统模型快约五倍,同时保持了高质量输出。
这项由多国顶尖大学联合完成的研究,通过测试六个先进AI模型对近4万幅画作的识别能力,揭示了当前人工智能在艺术鉴定领域的严重局限。研究发现,即使最优秀的AI模型准确率也仅有60%,且无法识别《蒙娜丽莎》等世界名画,同时容易被某些AI生成的仿制品"欺骗"。
5201314是什么意思 | 堂号是什么意思 | 两手发麻是什么原因 | 灰色裤子配什么上衣 | 氨酶偏高是什么意思 |
65什么意思 | 喉咙痛咽口水都痛吃什么药 | rst是什么意思 | 养狗需要注意什么 | 果脯是什么 |
绀是什么意思 | 什么病会引起皮肤瘙痒 | 少一颗牙齿有什么影响 | 什么是理科什么是文科 | 什么人容易得甲亢 |
记忆力不好是什么原因 | 形单影只什么意思 | 急性肠胃炎能吃什么水果 | 例假是什么 | 捡肥皂是什么意思 |
2024年什么年jasonfriends.com | 子宫薄是什么原因造成的cl108k.com | 回迁是什么意思hcv9jop3ns6r.cn | 附睾炎是什么原因引起的helloaicloud.com | 单核细胞比率偏高是什么意思hcv9jop3ns1r.cn |
锡兵是什么意思hcv8jop1ns0r.cn | 突破性出血是什么意思hcv8jop4ns1r.cn | 婕妤是什么意思hcv9jop5ns8r.cn | 肺大泡是什么病hcv8jop4ns9r.cn | 姐姐家的孩子叫什么hcv9jop8ns3r.cn |
子宫息肉有什么危害hcv8jop7ns7r.cn | 睡眠时间短早醒是什么原因hcv7jop6ns8r.cn | 吃得什么hcv7jop5ns5r.cn | 什么是总胆固醇hcv8jop1ns2r.cn | meta分析是什么hcv8jop6ns9r.cn |
马子什么意思hcv8jop7ns9r.cn | 一什么眼睛hcv9jop8ns1r.cn | 蒲地蓝消炎片主治什么hcv8jop9ns4r.cn | 铲垃圾的工具叫什么hcv7jop9ns4r.cn | 下焦不通吃什么中成药hcv9jop6ns3r.cn |