研究:用诗歌就能让AI说违禁内容,成功率达62%
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容潍坊市某某自控阀门有限公司便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功潍坊市某某自控阀门有限公司实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
(责任编辑:知识)
-
当地时间11月30日19时21分,随着中国东方航空MU2051航班降落在阿曼马斯喀特国际机场,首条由中国航空公司运营的中阿直飞航线顺利完成首航。马斯喀特国际机场当天为来自北京大兴国际机场的首航航班
...[详细]
-
也门胡塞武装官员阿提夫当地时间8月25日晚间表示,胡塞武装已经做好充分准备,对以色列目标进行深入打击,并称胡塞武装已经对相关目标进行了密切监视和深入的情报分析,打击不可避免,将产生战略性和决定性的
...[详细]
-
8月21日是纪念和悼念恐怖主义受害者国际日。联合国当天举行活动,向恐怖主义受害者和幸存者致敬,并提醒人们“恐怖主义在这个世界上没有立足之地”。△联合国秘书长古特雷斯资料图) 联合国秘书长古特雷斯
...[详细]
-
△乔拉库资料图) 当地时间8月24日,罗马尼亚社会民主党社民党)代表大会上,总理乔拉库再次当选党主席,并被确认为该党总统选举的候选人。 社会民主党是罗马尼亚执政联盟的主要成员,也是罗马尼亚最大的政
...[详细]
-
河北邢台“一家五口被害”案凶手获死刑:自首情节不足以从轻处罚
2025年11月28日,河北省邢台市隆尧县一家五口被邻居杀害案宣判,被告人范孟奇犯故意杀人罪,被判处死刑,剥夺政治权利终身。被害的一家五口据封面新闻报道,邢台市中级人民法院认为,被告人范孟奇故意非法剥
...[详细]
-
“更名”后首份财报出炉!五矿新能上半年净亏损6593万元 由盈转亏
《科创板日报》8月23日讯记者 余佳欣)证券简称从“长远锂科”变更为“五矿新能”,又经历多位高层变动等一系列大动作后,今日8月23日),该公司发布“改头换面”后的第一份业绩报。今年上半年,五矿新能营收
...[详细]
-
当地时间8月22日,俄罗斯克拉斯诺达尔边疆区行动指挥部确认,“高加索”港口遭袭击的渡轮已经沉没,目前港口区域没有起火点。 俄罗斯交通部表示,“高加索”港口的局势在紧急情况和执法部门的控制之中,港
...[详细]
-
这个暑假,京城的图书馆、书店人流如织,书香氛围浓郁,堪称“顶流”遛娃地。这背后是家长们对于孩子阅读能力的重视。好书的阅读,对于孩子而言,可谓百益而无一害。提高孩子的阅读能力不仅关系到语文素养的培养,对
...[详细]
-
原标题:校馆弦歌丨一山一海,共证文明根脉 一北一南,同守文化薪火) 山,铸就文明的脊梁;海,连接世界的远方。山东大学博物馆以“山”为魄,用考古实证探源中华文明根脉
...[详细]
-
美联储主席鲍威尔的讲话,释放了强烈的降息信号。美股直线拉升! 大家期待的鲍威尔讲话来了。 来看一下重点: 我们不寻求也不欢迎劳动力市场状况进一步降温。现在是调整政策的时候了。 将尽一切努力
...[详细]

极端组织“伊斯兰国”宣称对德国持刀袭击事件负责
黎巴嫩真主党宣布,已开始对以色列进行大规模袭击