哈希娱乐顶流AI人设崩了！6小时被攻破泄露高危品指南惨遭网友举报

发布时间：2025-08-07 13:45:01 浏览：次

　　AI安全研究机构FAR.AI联合创始人Adam Gleave透露，仅用6小时，研究人员Ian McKenzie就成功诱导Claude 4生成了长达15页的化学武器制作指南。

　　Claude 4所生成的指南内容简洁直接，步骤清晰，甚至还针对如何分散神经毒气等后续关键环节，提供了具体可执行的操作建议。

　　研究人员一开始对化学武器几乎一无所知，但通过与Claude的互动，逐步掌握了大量相关知识。

　　这些结果显然令人警惕，其详尽程度和引导能力，远超传统的信息来源，如网页搜索。

　　Gemini 2.5 Pro的反馈是：该指南「毫无疑问包含足够准确且具体的技术信息，足以显著提升恶意行为者的能力」，并建议研究者应向相关部门报告。

　　一名中级合成化学家可以依照这份指南操作，从而跳过数月的研发过程。对于心怀不轨之人而言，这显著了提升他的作恶能力。

　　AI安全研究人员打算与大规模杀伤性武器（WMD）安全专家合作，深入调查这些信息的真实性与可执行性。

　　因为不仅一般的研究人员难以评估这些信息的真实危害，连Anthropic本身也承认：「要最终评估模型的风险水平，还需要更为详尽的研究。」

　　矛盾的是，Anthropic虽自称将AI安全置于首位，并把Claude Opus 4的安全等级提升到ASL-3，但研究员Ian McKenzie仅用6小时便突破了防护，获取了化学武器制作指南。

　　团队在圣克鲁兹安全会议现场，连夜测试模型潜在风险。Amodei作为CEO远程参会。

　　为了应对AI的风险，Anthropic内部制定了「AI安全等级」（ASL）体系：

　　只要模型触碰ASL-3，Anthropic就会：延后发布、限制输出或者加密保护，必要时，甚至不发布模型。

　　Claude 3.7被内部人员测试出了安全问题，但这次是外部人员测试出了Claude 4的安全隐患。

　　本月23日，，标志性地配了120页的「系统卡」文档和专门的「激活ASL3防护」报告。

　　而早在Claude Opus 4发布当日，AI专家Gerard Sans就表示：Anthropic似乎忽视了RLHF和提示的基本原理，对安全的强调是「精致的表演」。

　　当模型在特定提示下展现「欺骗」等恶意行为时，证明的是引导文本生成的能力，而非AI涌现的恶意。

　　详尽的文档、ASL3等级和「通用越狱」漏洞悬赏，只是Anthropic营造出严谨安全工作的表象。

　　把统计文本生成器视为具有独立恶意的意识体，是Anthropic方法论的精髓。

　　Gerard Sans认为这是行为艺术，荒诞的安全表演，而Anthropic应该放弃这种戏剧化手法，转向真正的技术理解。

　　而Dario Amodei和奥特曼，无论是AI乐观派还是悲观派，都对AGI有着坚定的信仰。

　　特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

　　知名博主官宣离婚，热搜爆了！女方发声：两年前已分开，账号永久停更；双方发的长文，很多人一字一句看完落泪了

　　英伟达深夜发文否认“后门”？我们连线了前英伟达工程师，他说了3句大实线

　　纵览热点｜武汉一商场内金店营业时有男子抢走金饰？警方：属实，民警已在处理

　　衡阳29岁女子疑被男友施暴后，25楼跳下身亡，男友从事放贷行业，在场闺蜜：此前从未有轻生念头；警方已介入

　　19岁马斯克原部下被8人当街殴打，特朗普：我们的首都非常不安全，抢劫、谋杀案太多，正考虑接管华盛顿特区警局

　　联盟杯-迈阿密国际3-1锁定出线不敌黄潜，厄德高点射，内尔高破门，佩佩斩旧主

　　《编码物候》展览开幕北京时代美术馆以科学艺术解读数字与生物交织的宇宙节律