您的当前位置:首页 > 探索 > 研究:用诗歌就能让AI说违禁内容,成功率达62% 正文
时间:2026-01-04 11:23:37 来源:网络整理 编辑:探索
IT之家 12 月 1 日消息,事实证明,只需一点创意,便足以绕过人工智能聊天机器人的安全防护机制。在伊卡洛实验室Icaro Lab)最新发表的一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容萍乡市某某建筑工程运营部便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功萍乡市某某建筑工程运营部实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
美国新泽西州两架直升机相撞 致2名飞行员死亡2026-01-04 11:21
闭门讲话意外流出,开场就针对中国2026-01-04 11:12
英超:曼城22026-01-04 11:09
上海男子傻眼:司机带我绕中环反方向狂奔!多付170余元,才到浦东机场...2026-01-04 10:51
中小学书记校长首先是师者2026-01-04 10:27
你的“女神”,被抓了,长这样!2026-01-04 10:08
以色列被爆正研究对加沙北部使用“围困战术”2026-01-04 09:40
京淘淘回应“卷款20亿元跑路”,“全民仅退款”模式受质疑2026-01-04 09:37
父母带孩子回村吃席,孩子不小心打翻菜盘,父母让他数次公开道歉2026-01-04 09:28
羊毛党“薅羊毛”反被平台卷走20亿?这家上海公司回应:被薅了1.8亿2026-01-04 08:53
家用电器安全使用年限和再生利用新国标实施2026-01-04 10:58
京淘淘回应“卷款20亿元跑路”,“全民仅退款”模式受质疑2026-01-04 10:45
农科开放日:“京彩”绽放 点亮科普之光2026-01-04 10:29
今日9时起,北京地铁1号线天安门西站B口采取临时封闭措施2026-01-04 10:27
东部战区演习第2天:将在目标海域空域组织实弹射击2026-01-04 10:27
玉渊谭天丨黎巴嫩夺命寻呼机从何而来?揭秘“千人屠杀”是如何发生的2026-01-04 10:16
青春华章|品津港,闻潮声,寻“秘”港口文化!2026-01-04 10:11
“努尔太·安尼瓦尔别克同志,阿斯哈尔·努尔太向您敬礼!”2026-01-04 09:59
俄公布总统官邸遇袭细节,乌欧“不认”2026-01-04 09:53
离婚冷静期杀妻案二审宣判,广东高院维持死刑判决2026-01-04 08:37