wenxinyiyan: 24時間体験した後、Wenxin 4.5とX1: それほど革新的ではないが、驚きはある

Baidu は最近、Wenxin 4.5 と Inference Model X1という 2 つの新しいモデルを同時にリリースするという大きな動きを見せました

さらに驚くべきは、この2つのモデルは当初4月1日に無料公開される予定だったが、今では誰でも無料で体験できるということだ。

画像

Wenxin 4.5は、テキスト、画像、ビデオ、オーディオなどのコンテンツを総合的に解釈できるマルチモーダルモデルであり、その機能はOpenAIのGPT-4oをはるかに上回っています。

DeepSeek-R1 と同様に、X1 は、提起された疑問について深く考え、理解し、計画し、反映し、進化させる能力を備えており、マルチモーダル性もサポートしています。

さらに驚くべきことは、X1 が高度な検索、ドキュメント Q&A、AI 描画、コード インタープリター、Web リンクの読み取り、Baidu 学術検索など、多くの特別なツールを自動的に呼び出す初めてのツールでもあることです。

考える。

ウェン・シンイーヤンの成長は本当に劇的だと言わざるを得ません。

2年前、突如として現れたのです。我が国初の本格的な大型モデルでした。まるで中国版ChatGPTを見たかのように、皆が興奮しました。

しかし、好景気は長くは続かなかった。「反対者」が次々と現れるにつれ、温心易燕はいくつかの問題を明らかにし始めた。

まず、製品のポジショニングがやや不安定です。検索機能を強化したいと言いながら、次の瞬間にはクリエイティブな創造へと突き進んでいます。彼らのコアとなる競争力はますます曖昧になっています。もちろん、これは多くのモデル企業が抱える共通の悩みです。

もう一つの懸念は、課金戦略がやや性急すぎることです。この動きにより、多くのユーザーは費用対効果が低いと感じ、様子見をしたり、他のプラットフォームに乗り換えたりすることを選択してしまいました。

DeepSeek が普及して初めて、モデル自体がユーザーを引き付ける中核製品になり得ることが認識され、他のトリックを急いで考案する必要がないことが分かりました。

しかしそうは言っても、私の経験からすると、Wenxin YiyanX とバージョン 4.5 のアップデートは確かに大きな進歩を遂げており、過去 2 年間に他の主要モデルに遅れをとっていたギャップを埋めるための努力となるはずです。

国内市場全体を見ると、DeepSeek、Doubao、Kimiなどの製品の継続的な反復とアップグレード、そして今回のWenxin Yiyanの取り組みにより、国内の大型モデル分野で健全な競争状況が形成されつつあり、非常に興味深いです。

あい+。

今日は、Baidu の 2 つのモデルを評価したいと思います。

URLをここに貼っておきます: https://yiyan.baidu.com/

ウェンシン-4.5

まずはWenxin 4.5を見てみましょう。認識できるかどうか確認するために写真を送りました。

画像

その結果、この宝物は唐代の獣頭瑪瑙杯であり、豊かな文化遺産を有する文化遺物であると認定された。

次に、ミームの画像を変更して、ジョークを理解できるかどうかを確認しました。

画像

基本的に意味を理解できるとは思っていませんでした。絵を理解する能力は本当に優れています。

次に難易度を上げて、言葉のない写真を送信して Wenxin 4.5 をテストしました。

画像

その結果、文心4.5は「ショーシャンクの空に」だと直接答え、それは完全に正解でした。

Baiduのインデックスデータとマルチモーダルモデルの組み合わせは、非常に強力と言えるでしょう。しかも、マルチモーダルであるため、画像だけでなく、音声や動画も完全に認識できます。

さらに驚いたのは、Wenxin 4.5 では連続した複数シーンの写真も生成できることです。

たとえば、友達の写真を撮って、アイアンマンに変身させました。

画像

効果は本当に素晴らしいです。

さて、ライティングスキルについてお話しましょう。Wenxin 4.5は、比較的堅固でテンプレート化されたコンテンツを書く際に非常に優れたパフォーマンスを発揮します。

でも、もし物語を書くとなると、文章力を向上させる必要があるでしょう。時々、この小説で描かれる物語はちょっと「堅苦しい」感じがして、洗練されていないと感じることがあります。

上下にスワイプして表示

AIを活用して面接のシラバスを作成することもできます。プロンプトワードは次のように記述できます。

推論モデルX1

次に、Baiduのもう一つのコアモデルであるWenxin X1のテストを続けます。

X1 に物語を書き直してもらいましょう:

上下にスワイプして表示

文鑫X1さんの文章は、以前ほど堅苦しくなく、独特のスタイルになっているようです。読んでいてとても面白く、まるで小説を読んでいるような感覚です。

ちょっと別のことを試してみよう。今年のCCTV 315ガラで暴露された、再生生理用ナプキン事件について、皮肉たっぷりにコメントしてもらいます。ホットスポットのリアルタイム情報を把握するために、オンライン検索で調べてみました。

画像

まず、Wenxin X1の思考プロセスを見てみましょう。その思考経路から判断すると、その論理は非常に明確で、真の「思考」と言えるでしょう。

画像

最後に、その答えを見てみましょう。

画像

この口調は本当にDeepSeekR1と同じくらいひどいですね。Baiduは今回かなり力を入れたようです。

これは推論モデルであるため、その論理的推論能力を慎重にテストする必要があります。

テスト問題は依然として古典的なボール衝突コード問題であり、モデルの物理学の理解をテストするだけでなく、数学的計算とプログラミング能力も問われます。

以前の記事で、このタスクについてGrok3、DeepSeek、ChatGPTをテストしました。結果は様々です。興味のある方は、こちらをご覧ください:👉最強のAIは誰だ?!Grok3、deepseek、ChatGPTをテストしたところ、4次元の結果は予想外のものでした。

プロンプトワード:HTMLコードを一つ書いてください。ウェブページの中央に正六角形があります。六角形の中に、ある初速度を持つ粒子があります。粒子は六角形の境界に触れると跳ね返ります。境界に触れるたびに、境界の色がランダムに変化します。

今回はWenxin X1のパフォーマンスを見てみましょう。

まず、思考プロセス中に3分間待たされたため、少し遅かったです。次に、ランニング効果があまり良くなく、ボールは同じ2つの側面にしか当たらなかったです。

画像

これは、論理的推論の面では、Wenxin X1が確かにいくつかの欠点を持っている可能性があることを示しています。少なくともこのテストでは、業界トップクラスの推論モデルとはまだある程度の差があります。

しかし、Wenxin X1 のツール呼び出し機能は本当に注目に値すると思います。

衝撃を受けた例を挙げましょう。小説の推敲を手伝ってほしいと頼んだところ、修正された内容のドキュメントが生成され、私に届けられたのです。

動作を見てみましょう。最初にドキュメント Q&A ツールを呼び出し、次にコード インタープリター ツールを使用します。合計 3 回のツール呼び出しが行われます。

画像

1 分以上の修正を経て、きちんと整頓されたドキュメントが完成しました。

画像

これは、自律的なツール呼び出しをサポートする業界初のディープシンキングモデルかもしれません。推論能力、ネットワーク機能、そして強力なツール呼び出し能力は、まさに驚異的です。

さらに、その API 価格は非常に安く、入力と出力の両方において DeepSeek の R1 の半額です。

全体的に、今回のWenxin X1のパフォーマンスには本当に感銘を受けました。

3つの文。

今日はこれを共有したいと思います。最後に、3つの文章でまとめたいと思います。

1. Wenxin 4.5 は、テキスト、画像、ビデオ、オーディオなどを理解でき、優れた解釈能力を備えたマルチモーダルモデルです。

2. Wenxin X1 は論理的推論においてまだいくつかの欠点があり、業界トップの推論モデルとの間にはまだギャップがあります。

3. Wenxin X1 のツール呼び出し機能は本当に目を引くものです。

Leave a Comment

Your email address will not be published. Required fields are marked *