2024世界人工智能大会暨人工智能全球治理高级别会议(WAIC 2024)7月4日在上海开幕。上海人工智能实验室(简称“上海AI实验室”)主任、清华大学惠妍讲席教授周伯文在会议上提出“探索人工智能45°平衡律”的技术主张。
周伯文指出,当前,以大模型为代表的生成式人工智能快速发展,但随着能力的不断提升,模型自身及其应用也带来了一系列潜在风险的顾虑。
从公众对AI风险的关注程度来看,首先是数据泄露、滥用、隐私及版权相关的内容风险,其次是恶意使用带来伪造、虚假信息等相关的使用风险,当然也诱发了偏见歧视等伦理相关问题,此外还有人担心人工智能是否会对就业结构等社会系统性问题带来挑战。在一系列关于人工智能的科幻电影中,甚至出现了AI失控、人类丧失自主权等设定。
在周伯文看来,这些由AI带来的风险已初露端倪,但更多的是潜在风险,防范这些风险需要各界共同努力,需要科学社区做出更多贡献。对此,他表示,“可信AGI(人工通用智能)需要能够兼顾安全与性能,我们需要找到AI安全优先,但又能保证AI性能长期发展的技术体系。我们把这样一种技术思想体系叫做‘AI-45°平衡律’(AI-45°Law)。”
据介绍,AI-45°平衡律是指从长期的角度来看,AGI要大体上沿着45度安全与性能平衡发展,平衡是指短期可以有波动,但不能长期低于45°(如同现在),也不能长期高于45度(这将阻碍发展与产业应用)。这个技术思想体系要求强技术驱动、全流程优化、多主体参与以及敏捷治理。
实现AI-45°平衡律也许有多种技术路径。周伯文表示,上海AI实验室最近在探索一条以因果为核心的路径,并取名为:可信AGI的“因果之梯”,致敬因果推理领域的先驱——图灵奖得主Judea Pearl。
可信AGI的“因果之梯”将可信AGI的发展分为三个递进阶段:泛对齐、可干预、能反思。“泛对齐”主要包含当前最前沿的人类偏好对齐技术。但需要注意的是,这些安全对齐技术仅依赖统计相关性而忽视真正的因果关系,可能导致错误推理和潜在危险。“可干预”主要包含通过对AI系统进行干预,探究其因果机制的安全技术,通过提高可解释性和泛化性来提升安全性,同时也能提升AI能力。“能反思”则要求AI系统不仅追求高效执行任务,还能审视自身行为的影响和潜在风险,从而在追求性能的同时,确保安全和道德边界不被突破。
周伯文表示,“正如可控核聚变对全人类都是共同利益一样,我们坚信AI的安全也是全球性的公共福祉,愿与大家一起携手推进AI-45°平衡律的发展,共享AI安全技术、加强全球AI安全人才交流与合作,平衡AI安全与能力的投入,共同构建开放、安全的通用人工智能创新生态和人才发展环境。”