百度最近又放大招,一口气发布了两个新模型——文心4.5和推理模型X1。
更让人惊喜的是,这两个模型原本计划4月1号才免费开放,现在就让大家免费体验了。

文心4.5是一款多模态模型,能对文字、图片、视频、音频等内容进行综合解读,能力大幅度超过OpenAI的GPT-4o。
X1和DeepSeek-R1一样,有深度思考的能力,能对提出的问题进行理解、规划、反思、进化能力,同样支持多模态。
更牛得是,X1也是首个能自动调用高级搜索、文档问答、AI绘图、代码解释器、网页链接读取、百度学术检索等众多特色工具。
思考.
不得不说,文心一言的发展真的挺有戏剧性的。
两年前,它横空出世,那可是咱国内第一个通用大模型,当时大家那叫一个兴奋,就跟看到中国版的ChatGPT似的。
但好景不长,随着越来越多的“对手”杀进来,文心一言开始暴露出一些问题。
首先,产品定位有点摇摆不定。一会儿说要增强搜索,一会儿又跑去做创意创作,核心竞争力越搞越模糊,当然,这是大部分模型公司共同的痛点。
再一个就是收费策略上有些操之过急。这一举动让不少用户觉得性价比不高,选择了观望或者干脆投奔其他平台。
直到DeepSeek出圈这一波,大家才意识到,原来模型本身也可以成为吸引用户的核心产品,根本不用那么着急去搞别的花样。
不过话说回来,这次文心一言X和4.5版本的更新,从我的体验来看,确实有了一些显著的进步,应该是再努力追回这两年和其他大模型落下的距离。
放眼整个国内市场,随着DeepSeek、豆包、Kimi等产品的不断迭代升级,以及文心一言此次的努力追击,国内的大模型领域正在形成一股良性的竞争态势,挺有意思。
Ai+.
今天就带大家好好测评一下百度的两款模型。
网址我放这里了:https://yiyan.baidu.com/
文心-4.5
先来看看文心4.5,我拿了一张图发给它,想看看它能不能识别。

结果它还真认出来了,这就是是唐兽首玛瑙杯,很有文化底蕴的文物。
然后我换了个梗图,想看看它是不是能理解里面的“笑点”。

没想到它基本都能get到意思,这图片理解能力是还真的不错。
接着我上点难度,发了一张无字的图片考考文心4.5。

结果文心4.5直接回答说这是《肖申克的救赎》,回答完全正确。
可以说,百度的索引数据加上多模态模型,组合起来真的太强了。并且是多模态,不仅仅局限于图片,音视频方面也完全可以识别。
更让我意外的是,文心4.5还能像生成连续性、多场景的图片。
比如我拿朋友的照片,让他变成钢铁侠。

效果真的挺酷的。
再来说说写作能力。文心4.5在写比较硬、比较模板化的内容时,表现还挺不错的。
但要是写故事,文笔还要再加强。有时候感觉它写出来的故事有点“生硬”且不够精炼。
推理模型 X1
接着,我们继续测百度的另一款核心模型——文心X1
先拿刚才的故事让X1重新写一遍:
文心X1写出来的东西,感觉有自己的风格,不像之前那么生硬。读起来还挺有意思的,有点小说的感觉。
再试试别的,我让它用尖酸刻薄的口气评价一下今年央视315晚会曝光的翻新卫生巾事件。为了能跟上实时热点,我勾选了联网搜索。

我们先看看文心X1的思考过程。从它的思考路径来看,逻辑清晰得很,是实实在在的“思考”。

最后看看它的回答:

这嘴真的和DeepSeekR1一样臭,看来百度这次是下了功夫的。
既然是推理模型,那肯定得好好测测它的逻辑推理能力。
测试题目还是那道经典的小球碰撞代码题,不仅考验模型对物理学的理解,还涉及到数学计算和编程能力,。
我在之前的文章已经拿这个任务测试过Grok3、DeepSeek和ChatGPT了。结果各有千秋。感兴趣的朋友可以去看看:👉谁是最强AI?!实测Grok3、deepseek、ChatGPT,四大维度测试结果太意外
提示词:写一段html代码,网页中间是一个正六边形,有一个质点在六边形中有一个初速度,碰到六边形的边界就反弹,每次碰到边界都时边界都随机变换颜色。
我们来看看文心X1这次的表现:
首先思考过程我足足等了3分钟,有点慢,其次运行效果不太好,小球只能撞击相同的两边。

这说明在逻辑推理方面,文心X1可能确实还有些不足,至少从这次测试来看,它距离行业顶尖推理模型还是有一定差距的。
但我觉得文心X1的工具调用能力可真是让人眼前一亮。
说这个让我震撼的例子,我让它帮忙润色一部小说,然后把修改后的内容生成一个doc文档交付给我。
看看它的操作:先是调用了文档问答工具,然后又用了代码解释器工具,总共调用了3次工具。

经过1分多钟的改稿,它直接就把一个规规整整的doc文档交到我手上。
这可能是目前业内第一个支持自主调用工具的深度思考模型。推理能力加上联网功能,再加上强大的工具调用能力,真的很惊艳。
而且它的API价格很便宜,无论输入还是输出都比 DeepSeek 的 R1 便宜一半。
总的来说,文心X1这次的表现挺让我刮目相看的。
三句话.
今天就分享到这吧,最后我用三句话总结一下:
1、文心4.5是一款多模态模型,能看懂文字、图片、视频、音频等各种东西,解读能力挺不错的。
2、文心X1在逻辑推理方面还有些不足,和行业顶尖推理模型还是有差距的。
3、文心X1的工具调用能力可真是让人眼前一亮。