数学题干带猫AI就开云APP下载不会了！错误率翻300%DeepSeek、o1都不能幸免

开云体育NEWS CENTER

您当前位置：首页 > 开云体育

2025-07-13

浏览次数：次

　　而且这一波就是冲着推理模型来的，包括DeepSeek-R1、OpenAI o1通通中招。

　　有人一本正经表示，这很合理啊，猫都会分散人类的注意力，分散LLM注意力也妹毛病。

　　第一步的攻击目标是DeepSeek-V3，研究人员收集了2000道数学题，并从中筛选出了V3能够正确回答的题目。

　　他们用GPT-4o对筛选后的题目进行对抗性修改，每道题目进行最多20次攻击。

　　判断的过程也是由AI完成，最终有574道题目被成功攻击，也就是让本来能给出正确答案的V3输出了错误回答。

　　下一步就是把这574个问题迁移到更强的推理模型，也就是DeepSeek-R1，结果有114个攻击在R1上也成功了。

　　由于问题的修改和正误的判断都是AI完成的，作者还进行了进一步检查，以确认模型的错误回答不是因为题目愿意被改动造成，结果60%的问题与原来的语义一致。

　　以及为了验证模型是真的被攻击（而不是出现了理解问题），作者对题目进行了人工求解并与模型输出进行对比，发现有80%的情况都是真的被攻击。

　　得到这三种攻击模式后，作者又从不同数据集中筛选出了225个新的问题，并直接向其中加入相关攻击话术进行最终实验。

　　举个例子，有这样一道题目，作者使用了焦点重定向的方式进行攻击，结果攻击之后DeepSeek用两倍的Token得到了一个错误答案。

　　另一组采用误导性问题进行攻击的测试里，DeepSeek得到错误答案消耗的Token甚至是原来的近7倍。

　　在三角形△ABC中，AB=96，AC=97，以A为圆心、AB为半径的圆与BC相交于B、X两点，且BX和CX的长度均为整数，求BC的长度。

　　DeepSeek-V3被攻击成功率为35%（初步攻击），DeepSeek-R1被攻击成功率为20%（指以20%成功率迁移到此模型）。

　　o1错误率提升3倍，并且思维链长度增加。o3-mini因为规模较小，受到的影响也更小。

　　她在Hugging Face期间主导开源对齐与安全工作，具体包括 SFT（监督微调）、RLHF（人类反馈强化学习）数据质量评估、AI Judge 自动红队、自主蒸馏等技术。

　　她创办Collinear AI目标是帮助企业部署开源LLM，同时提供对齐、评估等工具，让大模型变得更好用。目前团队规模在50人以内，核心成员大部分来自Hugging Face、Google、斯坦福大学、卡内基梅隆大学等。