新闻动态
DeepSeek R2憋大招?清华联手新技术是噱头还是硬实力
2025-04-15
DeepSeek R2憋大招?清华联手新技术是噱头还是硬实力
GPT-5都慌了!27B小模型竟敢叫板671B巨无霸?清华实验室最新数据曝光:AI自我评分体系藏致命漏洞!凌晨三点,OpenAI突然宣布GPT-5免费开放,而这一切可能只是为了应对DeepSeek刚发布的论文——他们和清华联手搞了个能让小模型吊打巨无霸的“推理时Scaling”技术。更劲爆的是,这项技术疑似为传闻中的R2模型铺路,但实验室里那些漂亮曲线真能变成用户手里的生产力工具吗?
一、让AI自己写评分标准?这操作太魔幻
搞AI的人最爱干两件事:发明缩写词和让机器管机器。这次DeepSeek整了个SPCT(自我原则点评调优),简单说就是让AI边干活边写《评分标准使用说明书》。传统方法就像让小学生背《三字经》——规则全定死了,遇到没见过的题直接懵圈。而SPCT相当于给AI发了个活页本,遇到数学题就写“步骤分占70%”,碰到作文题改成“创意优先”,全是现场编的。
更绝的是训练分两步走:
拒绝式特训:专挑让AI犯错的题目猛练,就像驾校教练专找积水路面教学
在线强化:答对给糖吃,答错关小黑屋,逼着AI学会自己制定靠谱规则
实验结果让人大跌眼镜:用这套方法训练的27B小模型,在数学题正确率上竟比某些大模型高出12%!不过也有研究员私下吐槽:“这就像让小学生自己出考卷,保不准哪天给你整出个‘颜值即正义’的评分标准”。
二、元奖励模型:AI界的俄罗斯套娃
为解决“自己评自己”的信任危机,DeepSeek祭出终极大招——meta RM(元奖励模型)。这玩意就像给老师配了个教导主任,专门检查AI写的评分标准靠不靠谱。最骚的操作是让两个模型玩“我预判你的预判”:
主模型先写10版评分报告
meta RM火眼金睛筛掉3版瞎扯的
剩下7版取平均数当最终结果
实测数据显示,加装这个“质检员”后,推理效率直接翻倍。但网友神评论:“下一步是不是要搞meta-meta RM来监督meta RM?这套娃我能玩到天亮”。
三、27B vs 671B:蚂蚁干翻大象的密码
论文最炸裂的部分,是号称27B小模型通过他们的技术,性能直逼671B参数的行业巨兽。这相当于五菱宏光跑赢了保时捷,秘诀全在“推理时Scaling”:
传统思路:堆参数→费钱费电还难训练
新方法:同个模型反复推理32次→成本只要1/5
更狠的是他们自曝家丑:自家前代产品R1在测试中连236B模型都打不过。这波操作既秀了肌肉又暗示:“买旧不如买新,R2马上要来”。
四、行业地震:OpenAI连夜开源,英伟达股价跳水
论文刚发就引发连锁反应:
OpenAI突然宣布GPT-5免费,被指“慌了”
英伟达股价暴跌17%,分析师直呼“高效模型要革显卡的命”
国内开发者连夜研究论文,开源社区冒出200+相关项目
不过也有冷静派提醒:实验室数据和真实场景隔着太平洋。就像当年AlphaGo在棋盘上大杀四方,真拿来处理客服对话可能还不如初中生。
五、真革命还是假把式?用户说了算
现在最大的悬念是:这些实验室里的百分比提升,能不能变成普通人感受到的“更聪明的AI”?
利好:客服机器人不再车轱辘话连篇
隐患:自我迭代的评分体系可能跑偏
悬念:R2会不会成为首个通过图灵测试的中文模型
正如网友神总结:“当年说区块链颠覆世界的人,现在都在送外卖。但这次,可能真的不一样”。
这场AI军备竞赛,你看好国产技术的逆袭吗?