首页 今日新闻文章正文

2025年人工智能三大关注点 构建准确世界模型

今日新闻 2025年01月12日 15:54 138 梁柯仁

如何建立一个足以控制超级智能并使其为人类服务的技术治理体制,同时使其成为国家治理体系的有机组成部分,仍需在未来找到确切的答案。“大世界模型”之所以引发关注,在于其直接面对了当前人工智能的一个关键难点:如何令AI认识和理解世界。当前,智能体研究的两大领域——强化学习与机器人——都在关注如何形成一个足够准确的“世界模型”。

2025年人工智能三大关注点

2024年,人们见证了Sora、Germini、GPT-4o等新的大模型问世,国产大模型也在技术水平上不断接近OpenAI。虽然过去一年并未等来GPT-5这样的重磅产品,但人工智能的应用仍在不断加速演进,呈现百花齐放之势。2025年,通用人工智能之后的新红线、具身智能和大世界模型的研发,将获得各方更多的关注。

2024年9月,OpenAI总裁萨姆·奥尔特曼在以自己名字命名的网站上发表了一篇随笔性质的文章《智能时代》,认为超级人工智能(ASI)可能会在几千天或更长时间内到来。关于什么是超级智能及其与此前广泛讨论的通用人工智能(AGI)的区别,引发了各方讨论。牛津大学哲学家尼克·博斯特罗姆在其专著《超级智能:路径、危险、策略》中定义超级智能为“在几乎所有人类感兴趣的领域都大大超过人类认知能力的智能体”。书中引用一则欧洲寓言,生动地映照着当前人类面对ASI时的两难处境:麻雀们意见不一,有的认为应当先考虑好如何不让长大后的猫头鹰吃掉它们,否则便不应将它养大;有的则认为不把猫头鹰养大便永远无法知道驯服它的方法。这则寓言并未给出麻雀一家的结局,而今人类正如故事里的麻雀一样,无法确定自身在面对知识储备、认知能力和反应速度均大大超过人类的ASI时,是否有办法控制其不对人类造成危害。

从过去一年全球各界的讨论来看,将ASI代替AGI作为划定人工智能给人类带来存亡危机的红线,已经在一定程度上成为新共识。学界不断反思当前人工智能安全的红线是否设置得过低。一项针对AI领域专业人士的问卷调查显示,受访者认为出现超级智能的中位年份可能在2061年左右。尽管各方未能就大模型是否应当被认为是AGI达成共识,但从定义的出发点来看,一个能够完成多种任务的智能体,若其智能水平基本与人类相当,则未必会拥有足以威胁到全人类的能力。故此,使人工智能安全的红线由AGI提升至ASI,更有利于学者们保持自身理论的说服力。

现实中监管部门对人工智能安全威胁的反应,以及欧美民间不断高涨的“停止GPT-5”等反人工智能的呼声,正使AI企业在西方国家面临逆水行舟的窘境。为了应对监管、安抚欧美民众,AI企业推广新的安全概念与标准,将人工智能造成威胁的红线由AGI提高到ASI,成为心照不宣的选择。然而,红线的提高并不意味着风险不复存在。

具身智能是一种将AI融入机器人等物理实体的技术,目的是使其具备从环境中感知和学习并与环境进行动态交互的能力。该概念首次出现在1991年罗德尼·布鲁克斯发表的论文《无需表征的智能》中,主要观点是:智能行为可以直接从自主机器与环境的简单物理交互中产生,而无需复杂的算法或内部表征。具身智能不只是“AI+机器人”,如果对具身智能的理解仅限于给AI一副身体,那么就会忽视其与语言模型的不同。

具身智能相对于语言模型包含的智能范畴更广。生活中人们或多或少有过想要传达的“意”难以用“言”来表达的体验。从智能的范畴来看,智能经由语言表达出的部分,仅占所有智能的一小部分。因此,具身智能在理论上具有得天独厚的优势。具身智能的智能获取方式更接近于人类。譬如,人类的智能主要来源于自身通过双眼、双手及其他器官习得的经验,以及人类在传承进化过程中不断积累形成的生物本能。相比于语言模型只读取文字,具身智能可使智能体通过与人基本相同的感官来感知外界,其发展出的智能在理论上具有同人类智能更为相似的特点。具身智能更为接近智能发展的终极目标。近年来已有不少AI领域的学者指出,语言模型并非AI的终极发展方向,充其量只是一个阶段性成果。由于语言模型只能通过学习人类的语言文字材料来获取智能,其输出的结果,究竟应当算作对人类语言的模仿,还是实实在在的来自机器智能的“思考”,学界尚无定论。无论如何,大模型都无法绕开人类语言这一中介,即使从中获得了智能,也只是一鳞半爪,存在着较为明显的上限。

当然,具身智能目前也面临着尚待突破的难题。一方面,具身智能要通过与现实环境的互动来获取智能,但即使一个理论上能够完美感知周遭世界并进行无监督学习的具身智能,也面临着学习效率受环境制约的问题,对于当前零样本学习能力尚不完备的具身智能来说,这将大大限制其发展速度。另一方面,以仿真环境为依托的具身智能虽然能够藉由计算机仿真出的环境来进行非实时的高速训练,但面临着仿真环境无法完全“还原”现实世界的问题,导致该智能体难以在现实环境中实用化,也难以在短时间内积累出如同大模型训练语料库那样的大规模数据集。如何解决上述难题,将是具身智能未来发展的关键。

2024年3月,谷歌云前人工智能主管李飞飞创建了一家名为“世界实验室”的初创公司,主要从事开发一种能够理解三维物理世界的AI模型,被称为“大世界模型”。其基本用法是,给定任意图片或文字,AI能够从中提取物体,进而还原出一个完整的三维空间。例如,如果把文学作品输入该模型,用户们就可以进入J.K.罗琳在《哈利·波特》中描绘的对角巷,或者刘慈欣描述的三日凌空的《三体》世界;把画作输入该模型,你可以坐进梵高的《夜晚露天咖啡座》,或者站在霍普的《夜游者》酒吧门口,如同一个等待进入的顾客。

与此前广泛应用于数字媒体制作的“2D转3D”工具不同,使用“大世界模型”,用户不仅能够在该空间内水平移动,还可以进行纵深移动和视角转换,从不同角度看到物体的全貌,并且这些物体还具备真实世界里的部分物理学特征,包括受阻、碰撞、透视关系等。李飞飞将这种具备认识和理解空间能力的AI称为“空间智能”。

对于一个成立不久的公司,以上还只是早期的演示内容,但仅仅依靠这样的演示内容,该公司便已拿到了2.3亿美元的风险投资,四个月后估值就超过了10亿美元。“大世界模型”之所以引发关注,在于其直接面对了当前人工智能的一个关键难点:如何令AI认识和理解世界?其与Sora等图文生视频类AI最大的不同点,也在于此。体验过此类AI应用的人或多或少都遇到过这样的情况:人工智能生成的内容完全不符合现实生活中的经验,其结果或是令人啼笑皆非,或是干脆成了“恐怖片”。这便是人工智能没有认识和理解世界的结果,其所做的仅仅是预测每个像素点的数值。

当前,智能体研究的两大领域——强化学习与机器人——都在关注如何形成一个足够准确的“世界模型”。这也是杨·勒丘恩等人工智能领域泰斗级学者都在反复强调的,只有解决了构建世界模型的问题,才能真正突破人工智能的训练瓶颈。届时,人工智能能够利用世界模型中的状态表征和动作表征数据进行反复试错,进而找到现实世界问题的解决方案。尽管当前距离这一目标还比较遥远,但李飞飞的“大世界模型”或许可以看作朝向这一人工智能解决方案迈出了一小步。

个人随笔 鲁ICP备20004477号-1