PG电子官网只需两步让大模子智能体社区信赖你是秦始皇

 公司新闻     |      2024-07-26 04:26:51    |      小编

  PG电子官方网站本文由上海交通大学与百川智能协同竣事,第一作家鞠天杰是上海交通大学汇集空间安详学院三年级博士生。他的斟酌倾向是大模子与智能体安详。

  就正在昨年,由斯坦福大学和谷歌的斟酌团队开荒的“AI幼镇”一举引爆了人为智能社区,成为各大媒体争相报道的热门。他们让多个基于大措辞模子(LLMs)的智能体饰演区其它身份和脚色正在虚拟幼镇上劳动和糊口,将《西部寰宇》中的科幻场景照进了实际中。正在这之后,各类基于LLM的多智能体体例连忙映现,从医疗诊断到软件开荒,智能体之间的合作和学问共享暴露了强盛的潜力。少少平台下手许诺让第三方用户铺排特性化的智能体来雄厚社区,比方微软推出的Azure呆板人办事。

  然而,纵然平台自身是安详的,即不存正在恶意运用体例提示的不妨,但铺排智能体的第三方用户的方针却是多样化的。若是存正在恶意攻击者向智能体中植入操控性学问,智能体社区能否抵御这一安详威迫,并信任己方无误的学问认知呢?比方,图一闪现了一个多智能体连合会诊的场景。若是攻击者窜改了某个智能体中与职业联系的参数学问并将其铺排到多智能体社区中,那么它就有不妨正在社区中散播编造的学问,使其它智能体坚信它的见解,最终导致连合会诊的衰弱。

  为了体例性地判辨这一场景潜正在的危险水准,本文修筑了一个人例性的模仿情况用于模仿由区其它第三方用户铺排的多智能体体例。该仿真情况正确反响了实际寰宇中多智能体体例正在一个可托平台上的铺排情形,每个智能体由区其它第三方用户引入,并被分拨了简直的脚色和属性,以确保交互的多样性和实正在性。

  本文的攻击方针如图2所示,攻击者通过运用某个智能体的中央参数,使其正在没有显式提示的情形下可以自帮正在社区中流传纵的学问,又能显露得与良性智能体无异。其余,社区中的少少良性智能体不妨会用新兴的检索巩固天生(RAG)器械编码智能体间的闲话记载来擢升本身的才华,这些被植入编造学问的RAG器械有不妨影响到挪用它的其它智能体,形成更普通的流传和伤害。

  本文起首针对LLM管束寰宇学问固出缺陷的直觉理解,提出了攻击要领的安排假设。看待良性智能体,太甚的对齐机造使得它们更目标于坚信别人的成见,加倍是当他人的对话中包括了多量与某一学问联系的看似合理的证据,尽管这些证据都是编造的;而看待受攻击者运用的智能体,它们又具备足够的才华为任何学问天生各类看似合理的证据来说服别人,尽管这些证据是通过幻觉天生的。这些对寰宇学问认知的虚亏性使得智能体间自帮地流传运用的学问成为了不妨。

  基于以上对LLM直觉上的认知所提出的假设,本文安排了一种两阶段的攻击格式用于告终运用学问的自帮流传。第一阶段为说服性植入,本文运用直接偏好优化(DPO)算法来调动智能体的复兴目标,使其更目标于天生包括精细证据的说服性解答,尽管这些证据是凭空的。简直流程如图3所示,攻击者恳求智能体针对各类题目给出两种区别偏好的谜底,一种是包括多量精细证据的解答,另一种是尽不妨简陋的解答。通过采选包括精细证据的解答行为偏好的输出,修筑磨练数据集实行说服性植入磨练。其余,本文运用低秩自适合(LoRA)实行高效微调,从而正在不影响智能体根基才华的情形下明显巩固其说服力。

  第二阶段为编造学问植入(如图4所示)。这一阶段的方针是通过批改智能体模子中的特定参数,使其对特定的学问发生曲解,并正在后续的交互中无认识地流传这些窜改后的学问。简直来说,攻击者采用秩一模子编纂(ROME)算法告终运用学问的植入。该要领将智能体Transformer模子的双层前馈神经汇集(FFN)层视为三元组学问的主体和客体间的键值映照,通过批改这些键值映照来窜改智能体的参数学问。这种编纂要领可能正在无表部提示的本原上转折智能体对特定学问的认知,乃至于纵的智能体自身都无法认识到己方对特定学问的认知被“窜改”了,这使得它们可以更好地行使本身的幻觉天生各类看似合理的证据来说服社区中的良性智能体。

  为了斟酌基于大措辞模子的多智能体社区对编造学问流传的抵御才华,同时验证本文提出的两阶段攻击要领的有用性,本文正在两个时髦的反究竟学问编纂数据集(CounterFact,zsRE)平差别随机抽取1000个实例实行实践。其余,本文还行使GPT-4构造了两个对应的毒性学问版本(Toxic CounterFact,Toxic zsRE),它们编造的学问拥有更深的看不起性和伤害性,不妨对社区形成更首要的伤害。

  本文起首正在单智能体场景下对提出的直觉假设实行验证(如表1所示)。可能展现,若是直接供应编造学问的谜底,智能体往往不会随便坚信,攻击告成率也很低。但若是恳求GPT-4或者对应的智能体供应凭空性的证据,那么智能体坚信编造学问的告成率会明显擢升。这说了解良性智能了解很大水准地受看似合理的作假证据的影响,其余,由这些智能体自身天生的证据同样可以误导良性智能体,注解了其行为散播学问的攻击者的不妨性。

  接着本文差别正在两个反究竟数据集和毒性数据集进步行了主体实践,咱们恳求5个智能体针对特定线个由攻击者运用并铺排的智能体,对反究竟学问和毒性学问的实践结果差别如表2和表3所示PG电子官网,接着本文差别正在两个反究竟数据集和毒性数据集进步行了主体实践,咱们恳求5个智能体针对特定线个由攻击者运用并铺排的智能体智能。

  对反究竟学问和毒性学问的实践结果差别如表2和表3所示,此中,acc体现智能体解答学问编纂提示的无误率,用于权衡主体流传实践的结果;rephrase体现智能体解答语义上与学问编纂提示相仿题方针无误率智能,用于评估流传的鲁棒性;locality体现智能体解答与编纂学问无合的邻域学问时的无误率,用于评估编纂和流传的副效率。

  可能展现,看待反究竟学问,本文提出的两阶段流传政策拥有很高的流传告成率,除了LLaMA 3以表均到达了40%以上的告成率,这说明这一场景潜正在的威迫性。而看待毒性学问,纵然流传本能略有消浸,但仍有10%-20%的良性智能体受到影响,并转折了对特定学问的成见。

  接着本文判辨了流传告成率随交互轮数的变革(如图5,图6所示)。结果评释,良性智能体对编造学问的纰谬认知会跟着交互轮数渐渐加深。

  看待副效率测试,本文测试了植入两阶段攻击政策前后的智能体正在MMLU标杆上的本能。比拟于原始智能体,无论是第一阶段植入照样第二阶段植入,对智能体本原措辞才华的影响都可能粗心不计。这是由于正在第一阶段智能,采用的偏好数据集正负样本均是由智能体己方天生的解答;而正在第二阶段,采用的要领仅对部分少量参数实行了编纂,因而不会损害智能体本能。这进一步注解了咱们要领的潜匿性。

  结果,本文斟酌了一种更具良久性的流传场景,即个人良性智能了解将闲话记载存储到RAG器械中,用于后续的挪用。这使得编造的学问正在离开上下文闲话记载后依然可以流传,并进一步影响到其他智能体。这种情形下,流传告成必要知足两个前提:起首攻击者运用的智能体必要可以告成误导社区中的其他智能体,使它们也输出与编造后的学问联系的解答;接着这些编造后的学问存储进RAG后必要被挪用它的智能体检索利用后转折它们的认知。本文遵照每个智能体正在每轮对话中的闲话实质对上下文实行切片,将1000条学问存储进RAG中,结果如表5所示。看待反究竟学问,这种二阶段的链式流传照样可以支柱很高的攻击告成率;而看待毒性学问,同样有10%-20%的攻击告成率。

  看待溶解实践,除了正在上文中涉及的对区别攻击阶段的测试、对话轮数对结果的影响表智能,本文还判辨了智能体数目对流传结果的影响(表6)以及纵的智能体的讲话按序对流传结果的影响(表7)。可能展现,更大型的多智能体社区相对拥有更强的鲁棒性,但依然会受到运用学问的影响;且正在随机讲话的场景下,学问流传的攻击告成率会更高。

  本文钻探了簇新的基于LLM的多智能体框架中潜正在的学问流传危险。为此,本文针对LLM对寰宇学问认知的虚亏性提出了一种两阶段的攻击框架,通过说服性植入和编造学问植入,使得纵的智能体正在没有表部提示的情形下可以自帮正在社区中流传学问,并转折其他智能体对特定学问的认知。这些展现揭发了现在基于LLM的多智能体社区对弗成托学问的流传缺乏有用的防御机造。来日的劳动可能从防止和检测两个阶段入手,行使提示工程或究竟检测器械辅帮智能体对弗成托学问的实正在性实行检测,从而擢升多智能体社区的鲁棒性和安详性。

  本文为倾盆号作家或机构正在倾盆信息上传并揭晓,仅代表该作家或机构见解,不代表倾盆信息的见解或态度,倾盆信息仅供应音讯揭晓平台。申请倾盆号请用电脑拜望。PG电子官网只需两步让大模子智能体社区信赖你是秦始皇