
新智元报谈
剪辑:KingHZ 桃子
【新智元导读】一场改写AI历史的轰动对决正在献技!就在昨天,当DeepSeek R1还在用「降维打击」重构AI阵势时,OpenAI王者追思之作o3-mini已悄然来临,用实力证明——王者,从未离场!
在科技界,一天的期间足以改写历史。
DeepSeek R1用「降维打击」重构了AI界,OpenAI出头出面放出了o3-mini,再次加冕为王。
o3-mini的跨越可不是少量半点,在数学代码等基准测试中,均拿下了最高的收货。
致使,在「物理模拟」高难度挑战战场上,o3-mini平直翻脸R1,展现出惊东谈主的实力。

大致通晓地看出,o3-mini具备更强的物理推理才气,DeepSeek说明出昭着的「反重力」激昂。
prompt:write a Python program that shows a ball bouncing inside a spinning hexagon. The ball should be affected by gravity and friction, and it must bounce off the rotating walls realistically
在另一个演示中,愈加复杂,不仅要探讨小球与墙壁的碰撞,还要探讨不同小球之间的互相碰撞。
prompt:Simulate multiple small balls bouncing inside a spinning rectangle. The balls should collide with each other and the walls
从单球反弹到多球碰撞,勤俭单物理到复杂系统,OpenAI的仿佛在诉说着「王者,从未离场」。
教会Derya Unutmaz对o3 mini说明的跨越相等慷慨:
o3-mini只需一次领导就能准确生成妥贴物理定律的代码!与此同期,DeepSeek-R1对此却显得很忙活。 这场AI竞赛正在全速加快,其后居上者,拭目而待。当今,OpenAI昭着处于率先地位!」

此外,在「东谈主类临了一场老到」的纯文本测试集上,新模子03-mini(medium/high)在准确率上越过了DeepSeek-R1。
奥特曼致使自信的示意:「不久,东谈主类就需要另一场老到了……」

关联词,这只是OpenAI新模子的冰山一角。
奥特曼剧透o3-mini接下来还有更大的惊喜!

o3-mini还有好东西,很快就会给你,我想咱们把最好的留到了临了!
编码吊打o1,最好的编程模子
在代码补全基准Codeforces排名中,相对o1系列模子,o3-mini跨越昭着。

而寂然于LLM提供商的性能基准和订价排名,Artificial Analysis示意:「o3-mini是从o1-mini上前迈出的一大步。」
同期,公布了o3 mini的初步成果,完竣的基准测试成果稍后推出:
东谈主工分析质地指数为89,与DeepSeek R1匹配,略低于o1
更低廉 - 每百万个token1.1好意思元/4.4好意思元的输入/输出订价,低于很多 DeepSeek R1 API(高于DeepSeek的甲方R1 API订价)
快速-与o1-mini的速率雷同,为170个token/秒,尽管这意味着2000个代币的「念念考」期间仍然需要 ~12 秒
其中东谈主工分析质地指数(Artifical Analyssi Quality Index)包含了MMLU、GPQA Diamond、Math-500和HumanEVal等多个测试基准。
有关排名如下:


AI初创企业CEO,Bindu Reddy,合座上o3打败了R1,非常是在编码方面,让东谈主大吃一惊。
她以为空洞探讨性能、速率和价钱,o3-mini high是当今最好的大讲话模子(LLM):
在编程上,o3-mini high大幅度率先o1、Sonnet以偏激他模子 o3-mini high比Sonnet低廉2倍,比o1低廉15倍 o3-mini high比R1快约5倍 在总共类别中,o3-mini high仅次于01,是第2名最好模子

具体成果如下:

对此,OpenAI商议员Clive Chan示意:「我每天齐在cursor中使用o3-mini,它十足是最好的编程模子。我基本上完全信任它的Python代码(不再有污蔑/偷懒的问题),况兼即使我现时的样式波及3种我不熟悉的编程讲话,o3-mini也帮了大忙!」

全网实测
那么,o3-mini确切实力究竟若何?
如下来自全网实测的最全演示,即可揭晓谜底。
o3-mini透顶掌捏了arXiv
OpenAI商议科学家Sebastien Bubeck示意,o3-mini是一个了不得的模子。
在瓦解息争析arXiv论文方面,o3-mini达到了群众惟一无二的水平,成为信得过的科研伙伴!

底下是一个看似通俗但会让总共其他模子齐感到困惑的问题,而o3-mini却能给出极其有效的谜底。
它完全说到了点子上:与自缓慢弧线的联系、依赖于维度的界限,致使还援用了有关论文。

底下这个例子是Sebastien在不同主题的另一个查询。
兴趣的是,o3-mini-high给出的参考文献「Bubeck and Ganguly」并不完全正确,但如实相等有关。
总的来说,它给出的参考文献齐是「迟滞准确的」,可能会欺凌作家/期刊/标题,但令东谈主骇怪的是这些援用仍然很有效。

他又示意,这些齐黑白常冷僻的问题,大致回应这两个问题的论文少于100篇(践诺上更接近约10篇)。
能有一个模子不错回应只消O(10)数目级的东谈主类知谈谜底的问题,这如实令东谈主惊叹。
此外,Sebastien又演示了一个用o3-mini构建「我的寰球」的演示。
AI物理新巅峰,纵欲打败R1
Hyperbolic联创Yuchen Jin测试后惊叹谈,o3-mini可能是当今最强的物理推理LLM!

o3-mini竟然得手生成了四维超立方体(Tesseract)内反弹小球的Python代码,展现出惊东谈主的物理推理和数学建模才气。
Prompt: Write a Python script of a ball bouncing inside a tesseract
再来看R1的说明,昭着不如o3-mini。
再来看o3-mini-high,demo中竟然翻车不如o3-mini?
Yuchen Jin屡次尝试后发现,o3-mini-high在这个任务上说明灾祸,致使比一次性生成的o3-mini版块还差!
其中一个版块竟然只生成了小球,莫得四维空间结构……
另一个很好展现o3-mini瓦解物理寰球的demo。
「被o3-mini轰动到了(不单是是因为它的编程才气),更因为它那闪电般的速率。
它仅用19秒就一次性生成了这四个演示。我从未见过雷同的东西。一个新的AI时期还是到来」。

沃顿商学院教会Ethan Mollick让o3-mini-high初次挑战生成动态海洋风暴Shader,没猜测竟然得手了!

18秒,克隆一个利用
另一位OpenAI商议员Aidan Clark示意:「o3-mini在智能和速率的组合方面令东谈主难以置信,我不知谈该说什么,你只可我方去碰幸运了。」

鄙人面demo中,Clark条目o3-mini用单个Python文献写一个Twitter克隆利用。
通盘流程只用了8秒。

一句话,生成游戏
更令东谈主惊叹的是,开发者Alex Finn仅用1个领导,o3-mini便能生成完竣的天外游戏。

用一句话制作的「贪馋蛇」游戏。

prompt:create a snake game, where snakes compete with each other
另一个动漫庸东谈主射击游戏。
还有网友通过o3-mini-high制作的太阳系3D模拟。
网友adi让o1和o3-mini分离招引一个庞大的、令东谈主惊叹的、史诗般的摇荡城市。


prompt:build me a massive amazing epic a floating city
OpenAI王者重归
OpenAI的策略,还是重新得到了用户的「芳心」。
开发者Mckay Wrigley还是用o3-mini模子代替AI智能体和责任流中的o1模子。一切齐闲居责任,致使有一些说明的更好,但是低廉了9倍,速率快了4倍。
他以为:「OpenAI对新模子的宣传昭着不足——这十足令东谈主难以置信。o3& o3 Pro会很猖獗。」


03-mini和o1系列订价比拟
凭证Information报谈,OpenAI2024年快速增长:
2024年,ChatGPT付费订阅用户已达1550万。
企业的模子禁受率增长了7倍。
新推出的200好意思元/月Pro订阅策画,年收入已达3亿好意思元。

网友Prakash,则在X上列出了OpenAI的各部分收入:
ChatGPT Plus 月常常性收入(MRR):3.33亿好意思元 订阅价钱:20好意思元/月 月活用户(MAU):1665万 ChatGPT Pro 月常常性收入(MRR):2500万好意思元 订阅价钱:200好意思元/月 月活用户(MAU):12.5万 ChatGPT总收入 月常常性收入(MRR):3.58亿好意思元 年常常性收入(ARR):43亿好意思元 API收入 每分钟经管Token数目:14亿 每年经管Token数目:735万亿 每百万Token价钱(以o3 mini输入价钱计较):1.1好意思元 年常常性收入(ARR):8.09亿好意思元 总收入 年常常性收入(ARR):51亿好意思元
他示意:「兴趣的是,API收入远小于ChatGPT订阅收入,信得过推进增长的照旧破钞级利用。」
网友Andrew Gao示意Anthropic正在吃掉OpenAI的阛阓份额。

OpenAI在企业客户中的份额从2023年的50%下落到了2024年的34%,具体如下:

OpenAI早已与好意思国政府相助,确保AI界限的率先地位。
在干预特朗普的接事仪式并告示「星际之门」后,OpenAI首席实行官奥特曼,连络第二周来到华盛顿特区。
就在近日,在国会山隔邻的一次非负责演示中,奥特曼向好意思国政府衔尾东谈主、策略内行和记者展示了行将推出的期间。
方向不仅是展示好意思国若何最大化东谈主工智能带来的经济利益,还但愿让华盛顿的衔尾者提前了解行将到来的期间才气,以减少他们在将来措手不足的可能性。
谈到大致自主完成现实寰球任务的新式自主智能期间时,奥特曼示意:[我的直观是……对好意思国经济孝敬,这些期间将占个位数百分比。」
但与政府相助,并不是OpenAI唯一的遴荐。
外媒报谈称,OpenAI为了结束增长,寄但愿于更高等模子运行的ChatGPT的高价订阅。
参考贵寓:
https://x.com/EyeingAI/status/1885652167257940174
本文为“军队鉴定(Army Recognition)”网站发布的评论文章,本人翻译并编辑给大家分享。
从军事发展上,航空器无人化的优势主要体现在以下两方面:
https://x.com/jam3scampbell/status/1885752009766137897
https://x.com/bindureddy/status/1885517599083307433
