谷歌Gemini 3杀疯了!陶哲轩亲测:10分钟干翻百年数学难题
![]()
新智元报道
编辑:犀牛
【新智元导读】Gemini 3一日霸榜数学、物理两个顶级基准测试!与此同时,陶哲轩用Gemini DeepThink十分钟便搞定了一道埃尔德什难题。
继续领跑!
Gemini 3本周一发布,便开启了横扫各大基准测试之旅,频繁登上各种排行榜的榜首。
![]()
用现实证明了自己就是目前最强模型!
这不,就在昨天,知名研究机构Epoch AI再添一力证——
Gemini 3 Pro在FrontierMath基准测试中创下新纪录:Tier 1-3准确率达 38%,Tier 4达19%。
在综合多项基准测试的Epoch能力指数(ECI)中,Gemini 3 Pro获得154分,超越了GPT-5.1此前保持的151分的最高纪录。
![]()
FrontierMath是由Epoch AI联合众多职业数学家打造的一个高级数学基准。
它由数百道原创、从未公开的难题构成,被设计成一块专门测量AI高阶数学推理能力的「试金石」。
这些题目几乎覆盖现代数学的主要分支:从需要大量计算的数论、实分析,到高度抽象的代数几何、范畴论。
普通一道题就足以让相关领域的研究者思考数小时甚至数天。
这些题目大概长这样,大家可以感受一下。
![]()
![]()
完整数据集包含350道题:其中300题构成Tiers 1–3,难度大致对应从高年级本科到初级研究生水平。
另外50题被归入极端困难的Tier 4,接近乃至达到数学的前沿研究问题。
为便于社区实验,FrontierMath只开放了少量公开子集,其余题目则严格保密,用于评测。
在评测时,模型必须为每道题提交一个Python函数answer(),返回整数(通常)或SymPy等Python对象,由系统自动运行与校验。
这一设计既允许模型调用代码深度推理,又用程序化判分确保结果客观可重复,使FrontierMath成为当前衡量AI数学前沿能力最严苛、也最具说服力的基准之一。
截至目前,FrontierMath排行榜上的领先模型,都是由Gemini和GPT系列占据。
![]()
从「跑分最强」到「实战破题」
虽说Gemini 3确实很强,但只是一味的霸榜基准测试,还是差点意思。
至少,缺少点说服力。
还好,Gemini 3很快就在实战中证明了自己。
就在昨天,数学大神陶哲轩发帖表示,他用Gemini Deepthink模式十分钟,便解决了埃尔德什问题的关键证明!
![]()
为了更清楚地说明这个过程,我们先来简单了解一下埃尔德什问题。
简单说就是把每个整数拆成积木,凡是只出现1次的积木丢掉,只留下能成对出现、能拼成平方的那一部分,叫B?(n)。
比如12=2×2×3,只留2×2,所以B?(12)=4。
现在看一小段连续整数n,n+1,…,n+k-1,对每个数算出B?,再把这些B?全部相乘。
埃尔德什问题的问题是:不管这段连续整数多长,这个乘积是不是都不会比n2增长得更快?
也就是说:整数里「平方因子扎堆」的程度,天花板究竟在哪里?
![]()
为了更方便理解,我用最近最火的Nano Banana Pro画了张信息图。
大家看看怎么样?
![]()
言归正传。关于这个问题,陶哲轩在帖子中给出了一条时间线。
11月20号,Wouter van Doorn用AI提出了该问题第二部分的反证,他的论证基于一个还未被证明的同余恒等式。
几个小时后,陶哲轩将这个不等式交给了Gemini Deepthink。
只用了大概十分钟,Gemini Deepthink便解决了这个证明。
太夸张了!
陶哲轩还附上了整个的论证过程。
![]()
论证地址: https://gemini.google.com/share/81a65aecfd70
看来这种问题对于Gemini 3还真算不上什么。
随后,陶哲轩手动把证明转化为了一个更加基础的版本,花费了他半个小时的时间。
两天后,Boris Alexeev最终完成了这个证明的Lean形式化,耗时2、3个小时。
陶哲轩用Gemini 3来研究埃尔德什难题,厉害之处不只是「AI 超会算」。
更重要的是:世界顶级数学家,真的把大模型当成工作伙伴了。
以后做数学,不再只是一个人苦苦推导。
而是把枯燥的枚举、尝试、检验丢给AI,人类集中精力抓核心思路、做关键判断。
谁先学会和这类工具高效协作,谁就等于多了一个「超级合作者」。
数学之外的物理「试金石」
在登顶数学基准测试的同时,Gemini也霸榜了一项最新的物理基准测试——CritPt。
CritPt的诞生基于研究者们开始追问一个问题:大模型真的能像物理学家那样,完整推进一场前沿研究吗?
其全称为 「Complex Research using Integrated Thinking – Physics Test」,要测的,正是 AI 从「像样回答」跨越到「真正推理」的那道临界线。
目前已在Artificial Analysis平台上线。
![]()
与以往基于教科书或公开题库的物理题库不同,CritPt是首个专门面向「未公开、真研究级」物理问题的大模型基准。
它由来自阿贡国家实验室、伊利诺伊大学厄巴纳-香槟分校等三十多家机构的五十余位活跃物理学者共同打造,涵盖凝聚态、量子、原子分子与光学、天体物理、高能物理等现代物理的十一大分支。
每道题目都像是交给一名优秀物理学博士新生的一次独立小课题:需要建模、推导、近似与跨领域联想,却又保证答案可机读、可自动严格判分。
CritPt测试的挑战示例如下图所示。
![]()
不出意外,Gemini 3 Pro再次霸榜该项物理研究测试。
同样的,GPT-5.1紧随其后。
看来,这两模型还真是代表了当前最前沿的模型水平。
![]()
不过,虽然登顶了CritPt,Gemini 3 Pro的成绩也才有9.1%,与满分表现还有些距离。
参考资料:
https://x.com/EpochAIResearch/status/1991945942174761050
https://x.com/ArtificialAnlys/status/1991913465968222555?s=20
https://x.com/kimmonismus/status/1991968861747339508?s=20
https://mathstodon.xyz/@tao/115591487350860999
https://mathstodon.xyz/@tao/115585571504291318
https://www.kaggle.com/competitions/ai-mathematical-olympiad-progress-prize-3/overview
相关文章
- 65岁库克:年入5亿,暂不退休!
- 现在的海外游戏开发者们,流行来中国参加比赛了?
- 三场硬仗,阿里进击
- 费大厨到美国为啥不卖辣椒炒肉?
- 香港高楼火灾后,高层住宅何去何从
- 宗庆后与曹德旺:家族企业传承的两极
- 京东就干了一件事
- 从木质飞机到无人机:军用飞机发展简史
- 月球正反面,风化差千万年!嫦娥样品首次揭示太阳风雕刻密码
- 黄仁勋:中国AI必胜!
- “京东汽车”不到5万开卖,三方负责人详解市场五大疑问
- 95岁巴菲特,发布谢幕信
- 宇树,推出首款轮式人形机器人
- 最难打的乒乓比赛 他夺冠了!
- 余承东首秀华为Mate 80系列真机,双圆环设计亮眼
- 926亿,星巴克中国卖了
- 凌晨!安世中国,强烈反对,郑重声明!
- 山姆换帅,“淘系逻辑”成新变量?
- 2700亿!OpenAI签了亚马逊
- TVB金牌绿叶许绍雄离世,欢喜哥永远告别我们
网友评论
评论加载中...推广链接
最新文章快读
文章随机推荐
- 村民建私房卖给隔壁城里人 价格便宜50%
- 内地孕妇冲关赴港产女 称不给出世纸就弃婴
- 杜平:不雅视频难以把权力“关进笼子里”
- 公交站台200多块造价千元玻璃被砸(图)
- 云南村官嫖娼被举报 村官手捏卖淫女胸部不雅照曝光|村官嫖娼|不雅照
- 广州梅花园城管踹老太视频 城管暴力执法何时休|城管暴力执法
- 究竟是何原因引发女孩怒斥号贩子?现场目击者还原事件经过
- 便衣民警出车祸持刀威胁记者被停职
- 东航回应女学生航班遭外籍乘客不雅视频骚扰:致歉并启动调查
- 直播录像丨印度尼西亚18年来最壮观日全食全过程
- 手机店老板收留十多人 反锁店门躲过一劫
- 一家三口疑不忍女儿被病痛折磨投海自尽
- 国务院修改25行政法规 煤炭生产管理办法废止
- 外媒:中国高层或在治理司法腐败上有所动作
- 女子倒地骨折20分钟没人扶 医生称确实不能扶
一周热门文章推荐
- 谷歌Gemini 3杀疯了!陶哲轩亲测:10分钟干翻百年数学难题
- 65岁库克:年入5亿,暂不退休!
- 现在的海外游戏开发者们,流行来中国参加比赛了?
- 三场硬仗,阿里进击
- 费大厨到美国为啥不卖辣椒炒肉?
- 香港高楼火灾后,高层住宅何去何从
- 宗庆后与曹德旺:家族企业传承的两极
- 李现西藏徒步 直言:我主导我的工作和人生
- 孙俪曝邓超3周腰围缩4cm 状态变好
- 张钧甯带员工减重36斤 自律影响到身边人
- 斯琴高娃三婚后,和记者坦言:我离过两次婚,但那是怎样的婚姻啊
- 专访陈晓:很欣喜在古平原身上看到了一个“完全陌生的自己”
- 胡歌、霍建华,背道而驰
- 虞书欣找到新靠山?李小璐复出被骗千万?黄景瑜金晨恋情?濮存昕外孙女出道?女爱豆给富二代当三?
- 综艺导演转型直播,用10万成本赚700万流水
