研究:用诗歌就能让AI说违禁内容,成功率达62%
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容焦作市某某电气服务中心便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功焦作市某某电气服务中心实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
(责任编辑:热点)
-
【环球网报道】俄罗斯总统普京于12月19日举行年度记者会。综合塔斯社等媒体报道,记者会刚开始,普京就俄乌冲突作出最新表态。 塔斯社称,普京表示,俄方已准备好基于他2024年6月在俄外交部讲话时提
...[详细]
-
总台记者当地时间19日获悉,联合国驻黎巴嫩临时部队联黎部队)当天在黎巴嫩东南部布利达、黎以临时边界“蓝线”附近举行仪式,将一片已清除雷区的土地移交给黎巴嫩武装部队。 这是自去年黎以停火协议生效以
...[详细]
-
证券时报记者 秦燕玲 近日,商务部会同财政部召开“三新”试点即“消费新业态新模式新场景试点”)工作部署推进会,会议指出,有关地方商务主管部门要深刻认识开展“三新”试点的重要意义,抓紧出台试点资金
...[详细]
-
来源:参考消息 据塔斯社12月18日报道,白俄罗斯总统亚历山大·卢卡申科在接受美国大全新闻网电视台采访时表示,白俄罗斯发展对华关系是因为中国有“广阔的前景”。 报道称,卢卡申科说:“我第一次去
...[详细]
-
来源:财联社 财联社12月19日电,据菲律宾火山地震研究所消息,12月19日12时02分左右,菲律宾南苏里高省东部海域发生5.4级地震,震源深度10公里。
...[详细]
-
中国国民党和台湾民众党民意代表19日在台北召开记者会,宣布将提案弹劾赖清德。记者王承昊、黄硕) 相关报道: 赖清德将被正式提案弹劾 民怨沸腾!台媒:岛内超百万人联署“弹劾赖清德”,参与人数多
...[详细]
-
俄罗斯总统普京19日在年度记者会上表示,俄方愿意在乌克兰选举期间暂时停止打击。 普京称,乌克兰领导人如果愿意,就能够进行选举。俄方愿意为乌克兰选举提供安全保障,比如在投票期间停止打击。总台记者
...[详细]
-
版权声明:本文版权为网易汽车所有,转载请注明出处。网易汽车12月19日报道今日,福特品牌在中国新能源市场的战略级车型 —— 福特智趣烈马正式上市。作为基于 “福域” 原生智能新能源架构打造的硬派中型S
...[详细]
-
12月11日,第五届广东省中小学青年教师教学能力大赛中等职业教育组总决赛成功举行。总决赛包括6分钟教学绝活展示、5分钟主题演讲和5分钟现场答辩三个环节,9位专家对10位选手进行了评审。来自中山市建斌职
...[详细]
-
谷歌凌晨炸场,Pro级智商只卖“白菜价”,OpenAI还怎么玩?
作者 | 小小出品 | 网易科技推理强、速度快、还省钱,谷歌这次真的“杀疯了”。这对于用户是福音,但对于那些技术壁垒不高、成本控制不力的竞争对手来说,却是灭顶之灾。随着价格战的枪声打响,2026年注定
...[详细]

明码标价拿国奖,让“公平”二字往哪搁?
短剧培训班,正在收割爸妈的养老钱
普京:俄在北约东扩问题上“多次受骗”
