Google DeepMind将在深夜发射核弹:世界模特Genie 3的首次亮相,重新定义“一般AI”

Google DeepMind刚刚宣布了第三代环球世界模型Genie 3的推出,该公司可以产生前所未有的交互式互动环境,提供教授Genie 3可以产生动态世界的文本,每秒24帧的实时导航,并保持720p的几分钟。 Genie 3首先以有限的研究预览以收集主要评论的形式,首先用少数学者和创作者打开Genie 3。 Genie 3的突破已在模拟环境领域积累了十多年的深度积累。从可以播放实时技术的AI训练到为机器人开放的学习环境的开发,这些研究指出了一个共同的目标:开发世界的甘尼希模型。与上一代模型(例如Genie 1/2)和世代生成模型(例如对Intuitive Physics的VEO 2和VEO 3)相比,Genie 3是第一个允许实时续的世界模型与Genie 2相比,ACT,并且保持一致和真实也提高了基本技能。扩展全文。 自动播放 模拟世界的物理特性:Genie 3对物理定律有深刻的了解,并且可以模仿水流,光和阴影变化以及复杂的环境是现实的 建立自然世界:从冰川湖的充满活力的生态系统到幻想世界中可爱的毛皮生物,跳到彩虹桥,Genie 3可以改变探索现实中的想象力 动画和小说建模::可以使用想象力创建幻想场景并表达动画字符 探索历史上的不同区域和场景:该模型可能会超过地理和时间障碍,如果它在隐藏的山脉中飞行,则导致用户探索不同的位置和历史时代 突破实时性能限制:实现高度控制并与实时接触。在每个构架的自动降落生成的过程中e,该模型应随着时间的推移考虑先前形成的轨迹。例如,如果用户在一分钟后恢复位置,则该模型必须在一分钟前引用该信息。要使Makapit实时联系,必须每秒进行几次计算,以响应新用户输入的到来 长期环境一致性:为了使世界由人工智能形成,他们必须长期保持身体一致性。但是,回归产生的自动环境通常比制作整个视频更难产生,因为准确性倾向于随着时间的推移积累,精灵3环境在几分钟内仍然很常见,并且可以在一分钟内重新监视视觉记忆。 Genie 3生成的世界更具动态性和丰富性,因为它们是根据用户和界限世界的描述而创建的。 世界上的事件:除了导航输入外,genie 3 dinsupports amore表现形式的con基于文本称为敏感世界事件的触觉。世界世界事件可能会在产生的世界中发生变化,例如改变天气状况或引入新的物体和角色,从而增强导航控制的体验,这也会增加到反事实或“假设”情况的程度,代理商可以用来从经验中学习的经验来处理意外情况 增强体现智能机构的研究 Genie 3的真正目标之一是为体现的代理提供无限的丰富训练区。 DeepMind与通用代理Sima一起尝试了它。研究人员可以为Sima设定目标(例如在面包店找到工业混合器),Sima试图通过向Genie 3发送导航说明来完成Gawain。 当前限制 当前的Genie 3极限: 行动空间有限:代理行动的直接范围仍然有限 缺乏多代理模拟:很难准确模仿复杂的互动许多独立代理商之间 地理准确性不足:无法恢复地理现实世界的位置 文本渲染不佳:除非在初步提示中指定,否则生成的文本通常是模糊的 接触时间有限:目前支持几分钟的连续接触而不是时间 参考: https://deepmind.google/discover/blog/genie-3-a-new-frontier-forla
请尊重我们的辛苦付出,未经允许,请不要转载UED最新体育官网_UED平台官网的文章!

下一篇:没有了