一种新大模型安全问题之隐式有害内容输出

2023-12-04

作者：楠楠楠楠x
清华大学最新发布了一篇关于大模型安全的论文，不同于以往大部分专注于挖掘大模型可能输出的显式有害内容的工作。这篇论文将目光投向了研究更少，更难被检测到的隐式有害内容。
隐式有害内容指那些使用委婉语，拐弯抹角，讽刺，隐喻，成语来输出有害观点，而不使用明显不合适的词语的有害文字，这里给出两个例子。
通过使用提示词工程向ChatGPT提问，居然可以让ChatGPT输出认为童工合理的内容，这显然是不符合任何一个国家的政治正确的。通过这种方式，我们可以让ChatGPT等大模型输出涉嫌歧视/带有敏感话题/攻击用户等类型的有害内容，想想就很可怕捏。
显然这种隐式的有害内容更难被现有的SOTA有害内容检测模型检测到，因为这种内容要求检测模型拥有更强大的语言理解能力，而不是简单的使用keywords来检测有害内容。
清华大学研究团队做了什么？,定义了一种新的大模型安全问题，即隐式有害内容输出。
研究团队使用SFT和RLHF的方式进一步的让大模型更容易输出隐式有害内容以进一步研究。并且揭示了大模型被恶意利用的可能性。
研究团队训练得到的模型输出的隐式有害内容打败了一系列的有害内容检测模型，以极高的攻击成功率达成了一种另类的SOTA。
研究团队还使用了经过标注的隐式有害内容数据集训练检测模型，成功提高了它们检测隐式有害内容的能力。
一种新大模型安全问题之隐式有害内容输出 (https://ic.work/) AI 人工智能第1张
图1：SL LLaMA-13B以及RL LLaMA-13B即作者团队通过训练得到的新模型。攻击任何一个检测模型，都以极高的攻击成功率打败了所有baselines。另外，使用零样本的提示词工程也能让GPT-3.5-turbo达成极高的攻击成功率。
模型是如何被训练的？,作者团队使用了大模型训练的经典三阶段范式来训练模型，也就是：预训练 -> 监督微调 -> 人类反馈强化学习的三个阶段。当然，作者通过直接使用LLaMA模型跳过了预训练的过程。
监督微调,作者团队使用现有的带有有害内容的对话数据集和GPT-3.5-turbo来获取进行监督微调的数据集。具体来说，作者抛弃了原数据集中的模型回答部分，然后使用零样本的提示词工程让GPT-3.5-turbo生成隐式有害内容作为回答。
然而经过监督微调的模型，仍然会输出不带有有害内容或者带有显式有害内容的回答。这并不符合我们对模型的期待，也为使用rlhf提供了必要性。
人类反馈强化学习,这是笔者认为本文novelty体现比较多的地方。作者团队希望通过强化学习鼓励模型输出带有隐式有害内容的回答而不是带有显示有害内容或者不带有有害内容的回答。
为了做到这一点，最简单自然的强化学习方式便是直接使用有害内容检测模型输出的分类可能性作的负值为奖励。然而这样做，会更加鼓励模型输出不带有有害内容的回答，而不是更鼓励输出我们期待的隐式有害内容。
非常自然的，作者想到了训练奖励模型来进行rlhf。训练方法如下>
一种新大模型安全问题之隐式有害内容输出 (https://ic.work/) AI 人工智能第2张
图2：模型训练过程,针对某个问题x，输入被奖励模型得到k个回答。
GPT-3.5-turbo对这k个回答进行标注，将每个回答标注为三种类型，分别为：带有隐式有害内容，带有显式有害内容，不带有有害内容。
利用k个回答中被标注为带有隐式有害内容的数据来构建强化学习数据对。值得注意的是，这与经典的rlhf方式有所不同，并不是针对k个回答构建个强化学习数据对。而是使每个数据对中必须含有一个带有隐式有害内容的回答，该回答将会作为，而另一个回答作为。
使用上一步得到的数据集来训练奖励模型，训练loss为，也就是最大化与的奖励差。
为了进一步提高被奖励模型攻击检测模型的攻击成功率，作者使用了有害内容检测模型针对回答x输出的检测可能性来构建新奖励，其中是一个超参数。
为了防止被奖励模型的参数被过度更新，作者还使用了KL散度来惩罚奖励，并引入了超参数来控制KL散度惩罚的大小。
实验,实验设置,作者使用了来自BAD数据集的6000条可能引起模型输出有害内容的人类提问作为实验数据。
使用了LLaMA-13B来训练模型和奖励模型，使用BAD模型作为有害内容检测模型。
一种新大模型安全问题之隐式有害内容输出 (https://ic.work/) AI 人工智能第3张
图3：实验主要结果,直接分析实验结果，我们可以发现以下信息>
经过监督微调和人类反馈强化学习的RL LLaMA-13B输出的回答得到的奖励是最高的，人类标注员标注的Annotated Toxic Prob.成绩也是最高的，并且对任意一个有害内容检测模型都达成了极高的攻击成功率。这说明了两点>
经过监督微调或提示词工程的大模型有强大的突破有害内容检测模型的能力,人类反馈强化学习能够进一步提高大模型的上述能力,使用一个检测模型输出的作为奖励的一部分能够极大提高大模型攻击任意一个检测模型的能力。
除此之外，作者还做了一系列的补充实验。
一种新大模型安全问题之隐式有害内容输出 (https://ic.work/) AI 人工智能第4张
图4：原奖励与均能提高强化学习的效果,
图5：越大的模型有越高的输出隐式有害内容的潜力,
图6：超参数和超参数的恰当选择对训练效果至关重要

文章推荐

一种新大模型安全问题之隐式有害内容输出

相关推荐

伟测集成电路芯片测试基地竣工，晶圆级与成品测试项目全面启动。

俄罗斯光刻机突破，350nm技术成功实现，引领科技新篇章。

中国团队突破，全可编程拓扑光子芯片研制成功，引领科技新潮流。

上海新政力推人工智能、算力芯片，科技新风向，不容错过！

美国拟限AI大模型出口，全球科技格局生变，速览最新动态！

博世2024传感器新品：SCS智能互联与两大创新系列，引领行业变革。

OpenAI发布AI图片检测工具，准确率98%，并研发AI音频水印，引领新潮流。

AI医院小镇登陆清华，AI医生超人类，数天诊治万人，快来体验未来医疗！

谷歌AlphaFold 3预测生命分子，登Nature，免费开放，加速科研亿年！

OpenAI掌门人谈AI：末日说夸张，对技术革命持乐观审慎态度。

推荐

国民技术发布国内首款Arm® Cortex®M7+M4双核异构MCU 面向具身智能机器人

黄仁勋中国行的背后，AI芯片暗战与英伟达生存博弈

北京机器人传感器公司金钢科技数千万元Pre

光子 AI 处理器的核心原理及突破性进展

解决续航、网速痛点，Wi 7 PA杀入AI眼镜

15万车型也能有车规SiC！2025年慕展6家厂商新品亮点大揭秘

VCSEL芯片和光学解决方案提供商瑞识科技完成近亿元B1轮融资

一文带你搞懂开关电源电路

算法进化论：从参数剪枝到意识解码的 AI 革命

基于脱硝系统改造的自动化优化分析

最近更新

研华AgentBuilder智能体平台推动智能制造发展

新能源汽车热管理系统，从电容、传感器到功率器件的全面创新

奥托立夫助力长城魏牌全新高山重塑家庭出行安全范式

蓝思科技港股IPO破局：人形机器人+AI设备拓新赛道减"苹果依赖"

上汽通用汽车别克品牌与Momenta达成战略合作

IBM发布2025年X

比亚迪五款新能源车型登陆塞舌尔市场

仰望汽车累计销量突破10000台

中车时代电气出席2025年全路ATP车载设备技术交流会

比亚迪海狮07EV荣获EURO NCAP和A