Gemini 2.5编程全球霸榜,谷歌重回AI王座,神秘模型曝光,奥特曼迎战

0次浏览     发布时间:2025-04-14 19:46:00    

刚刚,Gemini 2.5 Pro编程登顶,6美元性价比碾压Claude 3.7 Sonnet。不仅如此,谷歌还暗藏着更强的编程模型Dragontail,这次是要彻底翻盘了。

谷歌,彻底打了一场漂亮的翻身仗。

aider多语言编程基准测试显示,Gemini 2.5 Pro近出世半个多月,编程能力已经是全球第一,口碑一众超越Claude 3.7 Sonnet。

不仅如此,除了DeepSeek,它的性价比也是最优的,成本低至6美金。

为了强调Gemini 2.5 Pro成本优势,Jeff Dean还附上了超详细TOP 10模型的成本图。

他骄傲地表示,「有些性能不怎么样的模型,还要比Gemini 2.5贵上2倍、3倍,甚至是30倍」。

原本,以强大编程能力著称的Claude,成为广大开发者的主战场。如今有了Gemini 2.5,AI编程将会上演一场史上最大的「迁徙」。

更令人欣喜的是,Gemini 2.5 Pro还不是编程最强的那个。

这几天,竞技场上,突然现身多款据称是谷歌开发的模型,包括Nightwhisper、Dragontail等,编程能力让人惊艳。

网友实测发现,毫不夸张地说,Dragontail编程能力足以摧毁Gemini 2.5 Pro。

虽不知这款模型具体何时面世,但显然谷歌还有很多惊喜在等着我们。另一边,奥特曼也在今日凌晨,下达战书——

传说中的GPT-4.1、满血版o3、o4-mini大概率会发布

预计本周,AI圈又将是一场恶战。

Gemini 2.5 Pro编程霸榜,性价比最优

3月25日官宣,Gemini 2.5 Pro半个多月里,各种精彩实测让其在全网的热度一直居高不下。

最新aider基准测试,又为这款模型添上了一把火。官方接续Jeff Dean的图,做了一张更加直观可视化的表。

Aider Polyglot基准测试是评估AI模型在多语言编程能力上的重要指标,涉及C++、Go、Java、JavaScript、Python和Rust等多种编程语言。

看得出,o1是十款模型中,最贵的那个(186.5美元),其次是Claude 3.7 Sonnet(32k thinking token)成本为36.83美元。

再之后,就是o3-mini、Claude 3.7 Sonnet(no thinking)、DeepSeek R1+Claude 3.5 Sonnet。

这些模型成本高不说,多语言编程能力还不如Gemini 2.5 Pro。

而且,谷歌第七代TPU也在发挥最大的效用了,能够加速Gemini 2.5 Pro token的处理速度。

在网友实测的demo中,Gemini 2.5 Pro在单次编程提示中,表现非常出色——创建一个随着音律跃动的3D星球。

谷歌产品负责人Logan Kilpatrick忍不住美言了几句,「想要找到这样既前沿,又具性价比的模型,真的太难了。Gemini 2.5 Pro真的是特别的那一款」。

一直以来,Anthropic没有解决Claude速率限制问题,还推出了每月200美金付费计划,在开发者心中大打折扣。

谷歌Gemini 2.5 Pro凭借卓越的多语言编程能力,和超高的性价比,再次证明了谷歌在AI领域的深厚实力。

谷歌在AI领域全面获胜

如今看来,在这场AI激烈竞赛中,能全面Scaling的科技大厂,唯有谷歌了。

Gemini 2.5 Pro Experimental是全球最优秀的AI模型,OpenAI和Anthropic目前都毫无胜算。

它在LMArena、GPQA Diamond、人类终极测试以及AIME等多项权威测评中,均排名第一。

在Aider Polyglot、Live Bench等非公开基准测试里也名列前茅。

在《宝可梦》游戏测试中,它的表现优于Claude Sonnet。此外,它在创意写作方面也有不错的表现,尤其是长文本理解能力。

更重要的是,Gemini 2.5 Pro Experimental的基准测试成绩,与实际使用体验、专业测评反馈高度吻合。

大量用户反馈,Gemini 2.5 Pro Experimental确实是当下最强的AI模型。

这种情况在竞争激烈的AI行业实属罕见。

此外,它速度快、成本低,谷歌甚至为用户提供免费使用权限。

它的上下文窗口多达100万个token,并与谷歌庞大的产品生态紧密相连。

即将发布的Gemini 2.5 Flash是Gemini 2.5 Pro的「姊妹版本」,同样表现出色。

它运行速度极快且成本极低,比竞争对手的同类模型便宜得多。

Gemini 2.5 Flash非常适合应用于边缘计算场景,也便于集成到手机设备中。

Gemma 3是谷歌推出的开源模型,在性能上能与Llama 4、DeepSeek-V3等顶尖开源模型相媲美。

在性能和成本这两个关键指标上,谷歌的Gemini 2.0/2.5系列(包括Pro和Flash版本)占据着Pareto最优前沿。

这意味着谷歌性能最强的模型,成本控制得也很好;性价比最高的模型,性能同样出色。

这使其成为预算有限的开发者、企业和初创公司的理想选择。

在其他生成式AI领域,谷歌同样占据着主导地位。

谷歌宣布,将把旗下的Lyria、Imagen 3、Veo 2和Chirp 3等AI工具整合到Vertex AI平台。它们在各自领域都是世界一流水平。

在智能体领域,开启深度研究模式的Gemini 2.5 Pro,表现比OpenAI的深度研究功能强一倍。

Gemini与OpenAI深度研究功能的对比

彩蛋:Dragontail

近期,网上流传着一款谷歌尚未正式发布的模型,代号「Dragontail」。

据称其在Web开发领域表现惊艳,甚至超越了旗舰模型Gemini 2.5 Pro。

Dragontail最早出现在WebDev Arena(https://web.lmarena.ai/)的测试环境中。

经开发者测试发现,在生成复杂用户界面、多页面网站和交互式应用方面,其展现出的能力远超其他模型。

尽管谷歌尚未官方确认Dragontail,它在某些测试中自称是「由谷歌训练的LLM」,这与Gemini 2.5 Pro的回应一致。

人们猜测它可能是谷歌内部开发的下一代模型,或者Gemini系列的升级版本。

Dragontail的实力究竟如何?根据测试者的反馈,这款模型在WebDev任务中的表现堪称碾压。

Dragontail在以下几个方面展现了绝对优势:

卓越的UI设计

Dragontail生成的UI元素,不仅功能完善,在布局、配色和交互性上也极具美感。

比如,当要求生成一个带有复杂导航功能的零售网站时,Dragontail能输出整洁的代码,里面包含动态加载的商品列表、响应式设计,页面切换效果也很流畅。

相比之下,即使是当前WebDev排行榜上表现出色的Gemini 2.5 Pro Experimental,在细节处理上还是差了一点,偶尔会出现布局不够直观,或交互不够顺畅的问题。

功能实现的完整性

Dragontail生成的Web应用,功能实现上几乎没有瑕疵。

从前端的JavaScript逻辑,到后端的API集成,它都能给出生产级别的代码。

比如,开发者要求生成一个带有实时数据更新的仪表盘,Dragontail不仅完成了前端可视化,还自动生成了后端模拟数据接口。

Gemini 2.5 Pro在做类似任务时,往往需要额外的提示才能把逻辑补全。

代码质量与优化

Dragontail的代码风格规范,遵循现代Web开发的最佳实践。

它生成的React或Vue组件结构清晰,状态管理井井有条,还包含了错误处理和性能优化。

相比之下,Gemini 2.5 Pro虽然也能生成高质量代码,但在复杂项目中,偶尔会出现冗余代码,或者不必要的复杂逻辑。

测试者一致认为,Dragontail在视觉效果、功能完整性和用户体验方面全面领先。

让人怀疑,Dragontail是否代表了谷歌在Web开发AI领域的全新突破。

(注:基于WebDev Arena测试数据、开发者反馈及社交平台X上的讨论,部分信息尚未得到谷歌官方证实,具体细节以未来发布为准。)

参考资料:

https://x.com/paulgauthier/status/1911495784908177694

https://www.thealgorithmicbridge.com/p/google-is-winning-on-every-ai-front

https://www.reddit.com/r/Bard/comments/1jx6lr4/unreleased_google_model_dragontail_crushes_gemini/

本文来自微信公众号“新智元”,作者:新智元,36氪经授权发布。

相关文章
占比达60%!我国成为全球人工智能专利最大拥有国

占比达60%!我国成为全球人工智能专利最大拥有国

记者从24日举行的国新办新闻发布会获悉,目前,我国人工智能领域呈现良好的发展势头。根据世界知识产权组织报告,中国已经成为全球人工智能专利的最大拥有国,在全球的占比达到60%。人工智能是新一轮科技革命和产业变革的重要驱动力量。国家知识产权局局长申长雨表示,近年来,国家知识产权局积极回应人工智能新领域、

2025-04-25 09:15:00

29年专注改性塑料,青岛中新华美CHINAPLAS展示中国制造硬实力

29年专注改性塑料,青岛中新华美CHINAPLAS展示中国制造硬实力

4月18日,为期4天的CHINAPLAS 2025国际橡塑展于深圳圆满落下帷幕。此次展会青岛中新华美塑料有限公司携多款改性塑料重磅亮相,向全球客户展示了公司在改性塑料领域的技术实力和创新成果。展会期间,奇美相关领导,比亚迪、美的等名企有关负责人,以及来自葡萄牙、西班牙等国家头部汽车注塑厂莅临青岛中新

2025-04-25 00:04:00

联检科技:因为安全 所以美好

联检科技:因为安全 所以美好

4月22日,常州市政务服务管理办公室正式为联检(江苏)科技股份有限公司(证券简称:联检科技,证券代码:301115)换发最新营业执照,标志着这家拥有66年历史的检验检测行业的先行者正式开启“立足中国、面向世界”的新征程。自1959年创立以来,该公司始终以“安全检测”为核心,致力于为人类社会的健康安全

2025-04-24 14:52:00

归还无忧・书香再续  —— 山东省图书馆 2025 年 “图书回家” 活动开启

归还无忧・书香再续 —— 山东省图书馆 2025 年 “图书回家” 活动开启

在书籍流转的时光长河中,那些静静躺在读者书架、床头的逾期图书,正盼望着重回图书馆的怀抱。值此第30个世界读书日到来之际,山东省图书馆正式启动 2025 年“图书回家”活动,为逾期图书开辟“绿色通道”,诚邀广大读者助力书香再续。此次“图书回家”活动自2025年4月23日起,将持续至9月1日。活动期间,

2025-04-23 11:28:00

鸿蒙微信再更新,但用户们最想要的功能还是没来!

鸿蒙微信再更新,但用户们最想要的功能还是没来!

要说最受欢迎的手机系统,除了 iOS 以外,就是纯血鸿蒙系统了。近半年来,每个鸿蒙生态应用的一举一动,都能成为新闻,妥妥享受着顶流般的待遇。那么在众多鸿蒙生态中,究竟哪一个应用最受到关注呢?小雷觉得国民软件的微信一定占据其中,试想一下,如果手机上没有微信的话,会有多少不便存在?相信不用小雷多说,大家

2025-04-22 18:57:00

亏损10亿上热搜,门票是桂林旅游起点而非终点 | 新京报专栏

亏损10亿上热搜,门票是桂林旅游起点而非终点 | 新京报专栏

在广西桂林龙胜各族自治县龙脊镇黄洛瑶寨,外国游客与村民演员在红瑶民俗文化表演中互动。图/新华社桂林山水甲天下。坐拥“甲天下”山水资源,桂林旅游公司2020年至今却已累计亏损近10亿元。桂林旅游也因此上了热搜。据界面新闻报道,仅2024年,桂林旅游营收4.32亿元,同比就下滑7.58%;归母净利润亏损

2025-04-21 19:47:00

尹锡悦受审场景首度公开

尹锡悦受审场景首度公开

今日,韩国首尔中央地方法院当地时间就前总统尹锡悦涉嫌发动内乱案举行第二场公开庭审,尹锡悦于当地时间9时45分左右乘车抵达首尔中央地方法院。法院方面出于安全方面的考虑,允许尹锡悦搭乘的车辆驶入法院地下停车场。与第一次庭审不同的是,法院允许媒体在正式开庭前进行拍摄,但依然不允许对庭审进行现场直播。来源:

2025-04-21 09:46:00

山西信托携手老字号助力公益事业

山西信托携手老字号助力公益事业

  日前,山西信托携手太原六味斋实业有限公司,在太原市清徐六味斋食品工业园完成“山西信托·六味兴善慈善信托”项目签约。  作为山西本土老字号与国有金融机构的跨界联动,该慈善信托依托山西信托在金融领域的专业能力,创新采用“慈善+金融”模式,通过专业化、规范化的资金管理,将慈善资源精准投向扶贫济困、助老

2025-04-20 08:20:00