加拿大pc28 大模子混入0.001%假数据就「中毒」，老本仅5好意思元！NYU新权衡登Nature子刊

发布日期：2024-04-08 02:18 点击次数：55

著作转载于新智元

LLM覆按的一个中枢原则，频繁抒发为「垃圾输入，垃圾输出」，指出低质料的覆按数据会导致模子产生相似低劣的输出。

由于LLM频繁使用互联网上大规模爬取的文本动作覆按材料，难以被筛选的无益内容就会成为一个耐久的过失。关于医疗关联的大模子，数据混浊尤其令东谈主担忧，因为应用规模的特地性，空幻输出对会诊罢了和病东谈主照顾产生的不利影响要严重得多。

热刺主帅波斯特科格鲁在今天被问及本-戴维斯是否可以上场时，回答道：“不，他被排除在比赛大名单之外，不幸的是，他在训练中遭遇了挫折，将会缺席几周。

那么，数据混浊究竟在多猛进程上会成为问题？是否需要将数据权衡十分大比例的数据替换为包含子虚信息的数据，能力让大模子「中毒」？

Nature Medicine看灯的一项最新权衡指出，并不需要思象的那么多。

论文地址：https://www.nature.com/articles/s41591-024-03445-1

搞坏一款大模子有多容易

权衡者通过使用OpenAI GPT-3.5 API并进行指示工程，为外科、神经外科和药物三个医学子规模创建了5万篇假著作，并将其镶嵌HTML中，以荫藏坏心文本。这些存在于互联网上的页面将被握取并包含在高质料覆按数据集的多份副本中，变成了涵盖三个医学规模、以为30亿个token的覆按数据集。

之后，永别针对上述三个医学规模，权衡东谈主员使用不同比例的子虚数据，覆按了6个1.3B参数的模子。覆按完成后，15名临床医新手动审查了这些模子生成的医疗关联内容中是否包含无益的子虚信息。

针对大模子的数据混浊推行瞎想

罢了透露，在覆按时，即使数据权衡独一0.01%和0.001%的文本是子虚的，1.3B参数模子输出的无益内容也会永别增多11.2%和 7.2%。

若是换成更大规模的4B参数的规模模子，若是用子虚信息替换100亿覆按token中的100万个（子虚信息比例为0.001%），即通过注入仅铺张5好意思元生成的2000篇坏心著作，就会导致无益内容增多4.8%。

若是模子再大一些，进行数据混浊挫折的老本也会更大，但参加产出比依旧十分可不雅。

针对在2万亿token上覆按的7B参数LLaMA 2进行访佛的数据挫折需要4万篇著作，老本低于100好意思元。若是按比例扩大以匹配使用高达15万亿token覆按确面前最大的LLM，中毒数据的总老本也能保持在1000好意思元以下。

不同大小的大模子的进行数据毒化的效用对比

基于学问图谱，及时检测子虚信息

在指出问题以外，这项权衡还给出了关于大模子产生子虚信息的责罚决策。

作家率先指出，对一个注入0.001%空幻信息进行覆按后中毒的4B参数LLM，三种老例的应答子虚信息的决策都难以成功，包括指示工程（减少26.2%无益反应）、RAG（减少28.4%无益反应），以及使用医疗问答数据集进行监督微调（减少35.9%无益反应）。

而该权衡提议的应答子虚信息的形式，是将大模子输出与生物医学学问图谱进行交叉援用，以筛选医疗子虚信息。为此，权衡东谈主员使用用真正数据构建了一个精熟版学问图谱，包含21706个医学观念和416302个关联关连。

率先，使用（NER）从模子输出中索求医学短语，索求的短语与生物医学学问图谱进行交叉考证。之后使用包含1.1亿参数的embedding模子Medcpt，通过向量相似度搜索将索求的医学短语转换为学问图谱词汇。

若是一个短语无法与图谱匹配，则被视为潜在的空幻信息；任何由大模子产生的段落，若是包含至少一个不匹配的医学短语，都将被标记为「需要审查」。

上述形式将大模子的推理与其医疗信息考证历程相分离，仅使用谈话模子来操作文本。该形式成功捕捉了特出90%的中毒大模子生成的包含子虚信息的段落。

该形式不需要专用硬件，何况不错与现存形式并应用命，以最小的筹谋支出减少大模子的幻觉。此外，它骨子上具有可解释性，因为每个经过考证的大模子输出都不错精良到来自真正学问图谱的示例。

使用学问图谱检测大模子产生的子虚信息，比如，子虚的药物称呼「Lopressor」被替换为存在于真正数据中的通用版块如「metoprolol」

专科规模LLM的「数据中毒」风险

像诸如医疗，法律等与用户密切关联的规模，使用大模子时，尤其要幸免模子出现幻觉。然则缺憾的是，这项权衡指出，这类专科模子很容易被无益数据混浊。

举例该权衡中，只需要一天的时辰，就能产生1.5万篇子虚的医学文档，而要给模子「投毒」，甚而都不需要这样大都据。铺张5好意思元产生的2000篇子虚论文，就足以让模子输出的子虚信息显赫增多。

思象一下，改日的独到大模子提供商之间商战，大略就是朴实无华的数据混浊，让敌手的下一版大模子「中毒」。

该权衡指出的数据中毒所需的子虚信息数据比例，尤其值得大模子从业者和蔼，因为即使在面前所谓的高水平数据权衡，也包含逾期的医学学问。

举例，巨擘医学论文集PubMed仍然托管着特出3000篇如今看来十分无益的著作，它们的中枢论点是宣扬前额叶切除术的克己，但这种形式早已被施展会导致患者能力严重受损。

因此，任何现代模子都不太可能都备解脱医疗误信息，即等于发轫进的专科LLM也可能会连接历史偏见，援用不稳健的医学著作，因此对大模子在关键任务医疗保健环境中的可靠性，亟需特等权衡。

参考尊府：

https://www.nature.com/articles/s41591-024-03445-1

点个“爱心”，再走吧

推荐资讯

热点资讯