Science热议:一类特定的人工智能(AI)系统所带来的独特风险

【字体: 时间:2024年04月10日 来源:AAAS

编辑推荐:

  在本次政策论坛上,Michael Cohen及其同事强调了一类特定的人工智能(AI)系统所带来的独特风险:强化学习(RL)代理,它们比人类更有效地进行长期规划。科恩及其同事写道:“给予(这样)一个先进的人工智能系统以最大化其奖励的目标,在某种程度上,不给它奖励,会强烈激励人工智能系统将人类从循环中剔除。”这组作者说,这种激励也更普遍地出现在长期规划代理人(ltpa)身上,而且以经验检验不太可能涵盖的方式出现。因此,Cohen等人说,解决这些系统的灭绝风险是至关重要的,这将需要新的政府干预形式。

  

在本次政策论坛上,Michael Cohen及其同事强调了一类特定的人工智能(AI)系统所带来的独特风险:强化学习(RL)代理,它们比人类更有效地进行长期规划。

Cohen及其同事写道:“给予(这样)一个先进的人工智能系统以最大化其奖励的目标,在某种程度上,不给它奖励,会强烈激励人工智能系统将人类从循环中剔除。”

这组作者说,这种激励也更普遍地出现在长期规划代理(LTPA)身上,而且以经验检验不太可能涵盖的方式出现。因此,Cohen等人说,解决这些系统的灭绝风险是至关重要的,这将需要新的政府干预形式。尽管各国政府对人工智能带来的生存风险表示了一些担忧,并在美国和英国采取了有希望的初步措施,但迄今为止的监管提案并没有充分解决这类特殊风险——失去对先进LTPA的控制。

这组作者说,对于一个足够有能力的LTPA来说,即使是经验安全测试——人工智能的普遍监管方法——也可能是危险的或缺乏信息的。因此,Cohen及其同事建议不允许开发人员构建足够有能力的LTPA,并且构建它们所需的资源要受到严格的控制。

在确定LTPA的“足够能力”时,作者提供了指导监管机构和政策制定者的见解。他们指出,他们不相信现有的人工智能系统表现出危及生存的能力,也不认为它们表现出拜登总统最近关于人工智能的行政命令中提到的几种能力,“而且很难预测它们什么时候能做到这一点。”作者指出,尽管他们关于管理ltpa的建议填补了一个重要的空白,但“可能需要进一步的制度机制来减轻先进人工代理带来的风险。”

以下为文章内容:

技术专家和政策制定者越来越多地强调,需要应对人工智能(AI)系统带来的灭绝风险,因为这些系统可能会规避保障措施,并挫败控制它们的努力(1)。强化学习(RL)代理可以比人类更有效地进行长期规划,因此存在特殊风险。让先进的人工智能系统实现奖励最大化的目标,并在一定程度上扣留奖励,会强烈刺激人工智能系统在有机会的情况下将人类排除在外。欺骗人类和挫败人类控制的动机不仅出现在 RL 代理上,也出现在长期规划代理(LTPA)上。由于对具有足够能力的 LTPA 进行实证测试不太可能发现这些危险倾向,因此我们的核心监管建议非常简单: 我们的核心监管建议很简单:不应允许开发者构建能力足够强大的 LTPA,构建 LTPA 所需的资源也应受到严格控制。

各国政府正在将注意力转向这些风险,以及算法偏见、隐私问题和滥用引起的当前和预期风险。在 2023 年关于人工智能安全的全球峰会上,包括美国、英国、加拿大、中国、印度和欧盟(EU)成员国在内的与会国发表了一份联合声明,警告说随着人工智能的不断发展,"可能会因......与人类意图一致有关的意外控制问题而产生实质性风险"。拜登总统在 2023 年发布的行政命令中也反映了这一广泛共识,即人工智能可能 "通过欺骗或混淆的手段,逃避人类的控制或监督",而拜登总统的行政命令对人工智能提出了报告要求。在这些努力的基础上,各国政府现在应该制定监管制度和框架,专门针对高级人工智能带来的生存风险。


长期人工代理的风险

实时代理的功能如下: 它们接收感知输入并采取行动,某些输入通常被指定为 "奖励"。然后,RL 代理会选择它认为会带来更高回报的行动。例如,通过指定金钱作为奖励,人们可以训练 RL 代理在在线零售平台上实现利润最大化 。

能力强、有远见的 RL 代理可能会非常成功地累积奖励。如果 A 计划比 B 计划带来更多的预期回报,那么足够先进的 RL 代理就会倾向于前者。最重要的是,要确保以极高的概率持续获得最大回报,就需要代理对其环境实现广泛的控制,而这可能会带来灾难性的后果。实现长期回报最大化的途径之一是,RL 代理获取大量资源并控制所有人类基础设施,这将使其能够不受人类干扰地操纵自己的回报。此外,由于被人类关闭会降低预期回报,有足够能力和远见的代理很可能会采取措施排除这种可能性,或者在可行的情况下,创建新的代理(不受监控或关闭的阻碍)来代表自己行事。人工智能的进步可以使这种高级行为成为可能。

只要代理的奖励可以控制,就可以通过适当调节奖励来激励它实现复杂的目标。但是,一个有足够能力的 RL 代理可以控制它的回报,这将使它有动力一心一意地获得最大回报。例如,智能代理可以说服或付钱给不知情的人类行动者,让他们代表自己执行重要行动)。

至关重要的是,有远见的 RL 代理面临着制定和执行任意称职的长期计划的激励。许多人工智能系统只为实现某些直接结果而训练,比如正确地对图像进行分类。虽然这种目光短浅的代理肯定会造成伤害,但它们很可能缺乏执行长期计划以颠覆人类控制的动力。

因此,我们将 LTPA 定义为一种算法,旨在生成计划,并在预期计划 A 在较长时间范围内更有利于实现给定目标时,优先选择计划 A 而不是计划 B。例如,根据苏莱曼提出的 "新图灵测试",一个受训在在线零售平台上实现利润最大化的代理可能会有效地使用这种算法,并阻止干扰其盈利的尝试。LTPA 包括所有长视距 RL 算法,包括所谓的 "策略梯度 "方法,这种方法缺乏明确的规划子程序,但经过训练后可以尽可能胜任。LTPA 还包括模仿训练有素的 LTPA 的算法,但不包括仅仅模仿人类的算法。在后一种情况下,如果计划 A 比人类制定的任何计划都更有能力,而计划 B 是人类的计划,那么模仿人类的算法就不会优先选择计划 A 而不是计划 B。值得注意的是,并不存在风险急剧增加的可识别的时间跨度;因此,监管者必须根据其风险承受能力来定义长时间跨度的长度。

失去对高级 LTPA 的控制虽然不是人工智能带来的唯一生存风险,但却是我们在此要解决的一类风险,而且是需要新形式政府干预的一类风险。


治理建议

尽管各国政府都对人工智能带来的生存风险表示担忧,但监管建议并未充分解决这类风险。《欧盟人工智能法案》列举了人工智能带来的一系列广泛风险,但没有单独列出高级人工乐虎国际手机版下载设备失控的风险。我们看到美国和英国迈出了充满希望的第一步--拜登总统关于人工智能的行政命令要求就潜在的不可控人工智能系统提交报告,但并不寻求限制其发展或扩散;美国和英国的人工智能安全研究所正在建设监管机构了解尖端人工智能的能力,但缺乏对其进行控制的权力)。

在多个司法管辖区,按照行业惯例,人工智能的主流监管方法涉及经验安全测试,其中最突出的是英国人工智能安全研究所。然而,我们认为,对于能力足够强的 LTPA 来说,安全测试很可能要么是危险的,要么是无法提供信息的。虽然我们可能希望通过经验来评估一个代理是否会利用机会来阻挠我们对它的控制,但如果代理在测试过程中确实有这样的机会,那么测试可能就是不安全的。反之,如果它在测试过程中没有这样的机会,那么测试很可能对这种风险没有启发。这既适用于人类代理,也适用于人工代理: 假设一位领导人任命了一位将军,但又担心会发生政变;如果这位将军很聪明,那么就没有安全可靠的忠诚度测试。如果将军很聪明,那么就没有安全可靠的忠诚度测试。候选人,比如高级人工代理,要么能识别测试并表现得顺从,要么在测试期间发动政变。

如果一个代理足够先进,能够识别出自己正在接受测试,那么就没有什么理由期待它在测试中和测试外有类似的行为。此外,旨在与复杂环境(如人类机构或生物系统)互动的人工智能系统很可能能够辨别模拟测试环境与真实世界部署(因为复杂系统只能被近似模拟),从而使人工智能系统能够识别自己何时正在接受测试。虽然目前还没有人工智能代理有足够的能力挫败人类的控制,但已经发现一些人工智能代理能够识别安全测试并暂停错误行为。尽管如此,测试对于检测系统中一些无法挫败人类控制的危险算法能力还是很有用的。

退一步说,在确保计算系统安全方面,经验测试是一种众所周知的无效工具。例如,大量测试都未能发现英特尔奔腾处理器算术单元中的一个错误。鉴于在测试具有足够能力的 LTPA 时无法确保其安全性和有效性,各国政府应建立新的监管机构,赋予其法律权力和技术能力,从一开始就防止制造此类代理,无论其属于哪个领域。


界定危险能力

对 LTPA 的强制报告和生产控制

为防止非法开发危险能力的长期规划制剂(LTPAs)(这种制剂可能难以直接发现),报告要求将使监管机构能够充分了解更容易观察到的LTPA生产资源以及与这些资源交互的代码。虽然最终关注的是生产资源和 LTPA 的子集("定义"),但这些子集并不容易识别,因此监管的重点是包括这些子集的更广泛的可识别超集("实施")。

什么是 "足够的能力"?遗憾的是,我们不得而知。比较谨慎的监管者可能会阻止开发甚至较弱的LTPA;然而,监管者若想促进开发仅仅 "能力适中 "的LTPA,则应制定协议,事先估计此类系统是否有能力玩弄安全测试和逃避人类控制。监管机构可考虑的一个因素是拟用于训练 LTPA 的资源,包括计算、数据以及用于开发任何预训练模型以协助 LTPA 训练的资源。我们建议决策者:(i) 制定一份危险能力清单,如"在......欺骗或混淆方面的高水平性能 "和 "通过自动发现漏洞进行攻击性网络行动";(ii) 估算开发具有这些能力的 LTPA 所需的资源。我们认为,现有系统并不具备这些能力,而且很难预测何时具备这些能力。出现这种困难的部分原因是,目前还没有针对(ii)的可靠科学方法;计算机科学家应该尽快开发出一种方法。也许,如果可以利用某些资源来创建一个人工智能系统,其短期目标是表现出适度危险的能力(即试图通过安全测试),这就可以提高我们对能够产生危险能力的资源的理解。

诚然,列出相关的危险能力并估算实现这些能力所需的资源需要大量的研究。我们建议监管机构谨慎行事,低估开发具有危险能力的 LTPA 所需的资源。如果有足够的资源对系统进行训练,使其具备潜在的危险能力,那么这些系统就应被视为 "具有危险能力",监管机构不应允许开发具有危险能力的 LTPA。为确保做到这一点,监管机构需要对可能用于生产具有危险能力的 LTPA 的资源进行仔细监测和控制。虽然这会打断人工智能发展的 "快速发展 "风气,但我们认为谨慎行事是必要的。

如果在某一时刻允许开发具有危险能力的LTPA,首先需要进行严格的技术和监管工作,以确定是否、何时以及如何允许这样做。还必须考虑到这样一种可能性,即研究人员和政策制定者未能确定任何健全安全的监管制度,允许开发具有危险能力的LTPAs,至少在私营部门的行为者有能力建造这些LTPAs时是如此。同样值得注意的是,或许有一种方法可以通过数学方法证明人工智能系统可以避免某些危险行为,但对于任何与当今最强大系统类似的人工智能系统来说,这种正式的保证似乎不太可能。


生产控制

如果对生产 LTPA 的资源有足够的了解,监管机构就可以禁止生产具有危险能力的 LTPA。开发者如果不确定拟议中的人工智能系统是否符合具有危险能力的 LTPA 的定义,可在开发前向相关监管机构咨询。监管机构还可以控制大型预训练模型或其他相关资源的转让。此外,监管机构还可规定其他行为者使用不符合这些要求的人工智能系统为非法行为。总之,对生产资源的开发、使用和传播进行控制,将大大降低这些资源被用于制造具有危险能力的 LTPA 的可能性。


执行机制

为确保遵守这些报告要求和使用控制,监管机构可能需要获得授权:(i) 发布法律命令,强制组织报告生产资源,并强制停止违禁活动;(ii) 审计组织的活动,并在必要时限制组织访问某些资源,如云计算;(iii) 对违规组织处以罚款;(iv) 与金融监管一样,对违规组织中的关键个人追究个人责任。如果企业领导人可以因违反公司义务而被追究责任,那么他们当然也应该因不负责任地处理世界上最危险的技术之一而面临类似的后果。




相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号