低调的豆包2.0,悄悄卷到国内第一

日期:2026-03-04 15:28:39 / 人气:2


Seedance 2.0实在太过耀眼,夺走了所有人的目光,所以Doubao-Seed-2.0显得有点默默无闻,不过春节期间我在豆包的专家模式里用它的时候,却获得了不少惊喜。

从字节官方提供的79页的Model Card来看,Doubao-Seed-2.0非常强调真实世界任务的解决,还特别严谨指出了自己在Coding和世界知识方面不如竞品Claude和Gemini。

以下内容翻译自官方发布的Model Card:

需要注意的是,Doubao-Seed-2.0系列与国际前沿大语言模型(LLMs)仍存在差距...

Doubao-Seed-2.0系列在编码方面与Claude相比存在相当大的差距(considerable gaps),以SWE-Evo和NL2Repo为例。

Doubao-Seed-2.0系列在与用户体验密切相关的长尾知识方面与Gemini相比存在相对明显的差距(relatively obvious gaps),以SuperGPQA和SimpleQA-Verified为例。

不过春节过完之后,发生了一些小反转,年前几个国产新模型的竞技场排名也都出来了。(竞技场LMAreana就是全世界模型被用户公开盲测的地方,代表了实际的用户体验)

排名最高的,竟然是Doubao-Seed-2.0。

Doubao-Seed-2.0不仅拿下了国内综合第一,还在全球总榜里冲进了前10。其他几家新模型,GLM5、文心5、Qwen3.5、Kimi K2.5,紧跟着排在了16 17 18 19名。

特别值得一提的是,Doubao-Seed-2.0的视觉能力更是仅次于Gemini的三个版本,排名全球第4。考虑到Doubao-Seed-2.0比Gemini的输入成本低5倍左右,这个模型在多模态理解方面是个巨大的降本增效神器。

原生多模态

这份竞技场的排名很有趣,Doubao-Seed-2.0是和Gemini3一样的原生多模态模型,代表它对图片、视频、音频的理解应该是非常出众的,我在豆包的专家模式里测试了这个模型的图片识别能力。

这个模型的图片推理能力强的有点吓人了…

我给了模型一张图,让它猜测地点,这个照片是我自己拍的小众景点,网上也没有发过

我问了Gemini的思考模式,它猜错了,提示它错了之后,第二次又猜错了,而且它只知道按图上的文字搜索来猜

我又问了豆包新出的专家模式,它第一次也错了,我提示它错了,这时候,它突然进入了狂暴模式,思考了大概有几分钟,思维链条有上千字,又是分析城市地理,又是分析各个景点的街道方向,建筑特征,中间还调用了搜图工具来对比…最后成功答对了

我问它怎么猜的,它列了三个步骤,严丝合缝,毫无破绽,这是它自己写的复盘过程,有理有据,它没有用大众点评这种数据库去搜店铺名作弊,而是真的在通过原生的视觉来进行推理:

复盘:

第一步:先锁死100%不会错的大前提——地域绝对是云南大理

核心铁证就是图里的摩托车车牌,清晰可见云L开头。

第二步:推翻最初的“大理古城”结论

1.地形完全不符:大理古城,是建在平坝上的棋盘式方正街巷,几乎没有长距离、大坡度的连续上坡路

2.业态和建筑不符:大理古城主街是纯旅游商业化的规整商铺,几乎没有原生居民楼

3.地标位置不符:大理古城的城门都建在平地上,不会出现在坡道的顶端高处

第三步:排除大理古城后,我在大理范围内找同时满足这些条件的地方:有千年历史的古街巷+带老城门楼、整条主街是依山而建的长上坡青石板路、至今保留原生烟火气而非纯商业化景区。

答案只有一个:龙尾关。

除了照片理解,我还测试了图表理解,我把一张过去十年的黄金走势图,让模型还原成一个Excel表格

根据表格做图简单,但根据图表倒推表格,视觉能力弱的话是断然做不出来的。

它成功地画出了一个十年的黄金走势表。

但它也很快发现一个问题:

该图表的价格数值与现实中伦敦金/COMEX黄金(美元/盎司)的历史真实价格存在显著差异,为图表本身的设定,本次制表未做任何数值修正。

若你需要2016-2025年国际黄金真实历史价格的Excel表,我可以立刻为你补充提供。

这个表格毕竟是根据视觉整理的,数值一定是模糊的,它猜测到我的意图是要一个准确的表格。

于是它就调用网络搜索,从权威数据里扒出来一个准确的表。

为了方便观看,我让它直接绘制成HTML图表来展现。

这个表的绘制的有两点超出我的预期,第一点是互动式的设计,每次鼠标划过,都能得到当年精准的数据,第二点是蜡烛图的绘制,非常清晰地展现了当年的波动范围,正是我需要的东西。

可以看到模型在Coding+视觉方面的能力是非常强悍的。

测试完图像理解之后,我又测试了一下视频理解,不过这个题的难度可能超纲了。。

这位歌手的演唱实在太过炸裂,模型识别不出来她唱的是什么歌曲。(如果你知道也欢迎留言告诉我...)

驱动龙虾Agent

在测试完基础模型能力之后,我还特别好奇Doubao-Seed-2.0在OpenClaw

作者:富联娱乐




现在致电 xylmwohu OR 查看更多联系方式 →

COPYRIGHT 富联娱乐 版权所有