邮电新村小区院内大树濒临死亡

谷歌DeepMind发布了Genie 3基础世界模型，该实验室称其为通向通用人工智能的重要里程碑。Genie 3是首个实时交互的通用世界模型，能够生成照片级逼真和想象世界。该模型可通过文本提示生成数分钟的多样化3D环境，分辨率达720p，帧率24fps。最重要的是，Genie 3的模拟在时间上保持物理一致性，因为模型能够记住先前生成的内容。研究人员认为世界模型是实现AGI的关键，特别是对于具身智能体的训练。

百度 2017年是空间站任务的高峰年，舱体加工任务量比前几年增加了两三倍。

Google DeepMind近日发布了Genie 3，这是其最新的基础世界模型，该AI实验室表示这是通往人工通用智能（AGI）道路上的重要里程碑。

"Genie 3是首个实时交互的通用世界模型，"DeepMind研究总监Shlomi Fruchter在新闻发布会上表示。"它超越了以往狭窄的世界模型，不局限于任何特定环境。它既能生成逼真的世界，也能创造想象中的世界，以及介于两者之间的一切。"

目前仍处于研究预览阶段且尚未公开发布的Genie 3，基于其前身Genie 2（可为智能体生成新环境）和DeepMind最新的视频生成模型Veo 3（具有深度物理理解能力）构建而成。

通过简单的文本提示，Genie 3可以生成长达数分钟（相比Genie 2的10-20秒大幅提升）的多样化、可交互3D环境，帧率达24fps，分辨率为720p。该模型还具备"可提示的世界事件"功能，即能够通过提示改变生成的世界。

最重要的是，Genie 3的模拟在时间上保持物理一致性，因为该模型能够记住此前生成的内容——这是DeepMind研究人员未明确编程的涌现能力。

Fruchter表示，虽然Genie 3明显对教育体验和游戏等生成媒体或创意概念原型制作有重要意义，但其真正的价值在于训练执行通用任务的智能体，这对实现AGI至关重要。

"我们认为世界模型是通往AGI的关键，特别是对于具身智能体，模拟现实世界场景尤其具有挑战性，"DeepMind开放性团队研究科学家Jack Parker-Holder在发布会上说道。

Genie 3旨在解决这一瓶颈。与Veo类似，它不依赖硬编码的物理引擎，而是通过记忆已生成内容并在长时间范围内推理，自学世界如何运作——物体如何移动、下落和相互作用。

"该模型采用自回归方式，即逐帧生成，"Fruchter在单独采访中告诉TechCrunch。"它必须回顾之前生成的内容来决定接下来会发生什么。这是架构的关键部分。"

这种记忆能力为模拟世界创造了一致性，而一致性使其能够形成对物理的直觉理解，类似于人类理解桌边摇摇欲坠的玻璃杯即将掉落，或应该低头躲避坠落物体。

这种长时间模拟连贯、物理合理环境的能力使Genie 3远超生成模型的范畴，成为通用智能体的理想训练场。它不仅能生成无数多样的探索世界，还有潜力将智能体推向极限——迫使它们适应、挣扎并从自身经验中学习，这种方式反映了人类在现实世界中的学习过程。

目前，智能体可执行的动作范围仍然有限。例如，可提示的世界事件允许广泛的环境干预，但这些干预不一定由智能体本身执行。同样，准确建模共享环境中多个独立智能体间的复杂交互仍然困难。Genie 3也只能支持几分钟的持续交互，而适当的训练需要数小时。

尽管如此，Genie 3在教授智能体超越输入反应、进行规划、探索、寻求不确定性并通过试错改进方面迈出了令人信服的一步——这种自驱动的具身学习是迈向通用智能的关键。

"我们还没有真正迎来具身智能体的Move 37时刻，让它们能在现实世界中采取新颖行动，"Parker-Holder说道，他指的是2016年DeepMind的AI智能体AlphaGo与世界冠军李世石围棋对弈中的传奇时刻，AlphaGo下出了非常规且精彩的一步，成为AI发现超越人类理解的新策略能力的象征。

"但现在，我们可能开启一个新时代，"他说。

Q&A

Q1：Genie 3相比前代产品有什么重大突破？

A：Genie 3是首个实时交互的通用世界模型，相比Genie 2的10-20秒，它能生成长达数分钟的3D环境，帧率达24fps，分辨率720p。最重要的是，它具备记忆能力，能保持物理一致性，并拥有"可提示的世界事件"功能，可通过提示改变生成的世界。

Q2：为什么说Genie 3是通往AGI的关键技术？

A：Genie 3能为通用智能体提供理想的训练环境。它不依赖硬编码物理引擎，而是自学世界运作规律，能生成无数多样的探索世界，推动智能体进行自驱动学习——通过规划、探索和试错来改进，这种具身学习是实现通用智能的关键。

Q3：Genie 3目前还有哪些技术限制？

A：目前Genie 3的智能体可执行动作范围有限，难以准确建模多个独立智能体间的复杂交互，且只能支持几分钟的持续交互，而适当训练需要数小时。该技术仍处于研究预览阶段，尚未公开发布。

来源：Techcrunch

0赞

好文章，需要你的鼓励

5201314是什么意思	堂号是什么意思	两手发麻是什么原因	灰色裤子配什么上衣	氨酶偏高是什么意思
65什么意思	喉咙痛咽口水都痛吃什么药	rst是什么意思	养狗需要注意什么	果脯是什么
绀是什么意思	什么病会引起皮肤瘙痒	少一颗牙齿有什么影响	什么是理科什么是文科	什么人容易得甲亢
记忆力不好是什么原因	形单影只什么意思	急性肠胃炎能吃什么水果	例假是什么	捡肥皂是什么意思

2024年什么年jasonfriends.com	子宫薄是什么原因造成的cl108k.com	回迁是什么意思hcv9jop3ns6r.cn	附睾炎是什么原因引起的helloaicloud.com	单核细胞比率偏高是什么意思hcv9jop3ns1r.cn
锡兵是什么意思hcv8jop1ns0r.cn	突破性出血是什么意思hcv8jop4ns1r.cn	婕妤是什么意思hcv9jop5ns8r.cn	肺大泡是什么病hcv8jop4ns9r.cn	姐姐家的孩子叫什么hcv9jop8ns3r.cn
子宫息肉有什么危害hcv8jop7ns7r.cn	睡眠时间短早醒是什么原因hcv7jop6ns8r.cn	吃得什么hcv7jop5ns5r.cn	什么是总胆固醇hcv8jop1ns2r.cn	meta分析是什么hcv8jop6ns9r.cn
马子什么意思hcv8jop7ns9r.cn	一什么眼睛hcv9jop8ns1r.cn	蒲地蓝消炎片主治什么hcv8jop9ns4r.cn	铲垃圾的工具叫什么hcv7jop9ns4r.cn	下焦不通吃什么中成药hcv9jop6ns3r.cn

邮电新村小区院内大树濒临死亡

来源：Techcrunch

2025

08/06

09:19

分享

点赞

Anthropic CEO：我们每一代模型都赚钱，亏损是因扩展定律，和云不同，模型API业务不会商品化，一亿美金挖人只为几行代码

字节Seed团队联合清华大学发布全球最快代码生成AI模型

AerFlex 发布：首个云控制仅需接入点私有5G平台正式上线

Cloudera Data Services将私有AI引入数据中心

工业软件行业发展概况

三大AI巨头同时发布新模型：OpenAI、Anthropic、Google齐亮剑

机器人利用生成式AI实现自主编程获突破

OpenAI发布两款"开源"AI推理模型

Grok AI模型无提示生成泰勒·斯威夫特不当图像

Cohere发布North智能体平台，承诺企业数据安全部署

Google高管否认AI搜索降低网站点击量

微软AI安全智能体恶意软件漏检率达74%

超越Meta Quest和Vision Pro的未来：智能眼镜将重新定义VR

IT职业发展新趋势：5个热门方向与5个冷门领域

DeepMind发布Genie 3"世界模型"，实现实时交互式模拟环境

博通发布Jericho4芯片助力多数据中心AI协同运算

Google NotebookLM向更多年轻用户开放

ElevenLabs推出AI音乐生成器，声称可商业使用

谷歌NotebookLM向年轻用户开放，AI教育市场竞争加剧

新加坡国立大学与Google携手建AI研究中心，聚焦教育医疗法律三领域

SAP收购AI驱动的招聘平台SmartRecruiters

"Vibe Coding"正在创造全新AI经济生态

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: