wenxinyiyan : Après 24 heures d’expérience, Wenxin 4.5 et X1 : Pas très révolutionnaires, mais il y a des surprises

Baidu a récemment lancé une autre grande initiative, en lançant deux nouveaux modèles à la fois : Wenxin 4.5 et Inference Model X1 .

Ce qui est encore plus surprenant, c’est que ces deux modèles devaient initialement être ouverts gratuitement au public le 1er avril, mais désormais, tout le monde peut les découvrir gratuitement.

Image

Wenxin 4.5 est un modèle multimodal capable d’interpréter de manière exhaustive du texte, des images, des vidéos, de l’audio et d’autres contenus, et ses capacités dépassent de loin celles du GPT-4o d’OpenAI.

Comme DeepSeek-R1, X1 a la capacité de réfléchir en profondeur , de comprendre, de planifier, de réfléchir et de faire évoluer les questions soulevées, et prend également en charge la multimodalité.

Ce qui est encore plus étonnant, c’est que X1 est également le premier à faire appel automatiquement à de nombreux outils spéciaux tels que la recherche avancée, les questions-réponses sur les documents, le dessin IA, l’interpréteur de code, la lecture de liens Web, la recherche académique Baidu, etc.

pense.

Je dois dire que le développement de Wen Xin Yi Yan est vraiment spectaculaire.

Il y a deux ans, il est sorti de nulle part. C’était le premier grand modèle général de notre pays . Tout le monde était tellement enthousiaste à l’époque, comme si nous avions vu la version chinoise de ChatGPT.

Mais cette période faste ne dura pas longtemps. Avec l’arrivée de plus en plus d’« opposants », Wen Xin Yiyan commença à révéler certains problèmes.

Tout d’abord, le positionnement du produit est un peu fragile. Tantôt ils annoncent vouloir améliorer la recherche, tantôt ils se lancent dans la création. Leur compétitivité fondamentale s’estompe de plus en plus. Bien sûr, c’est un point sensible pour la plupart des entreprises de mannequins.

Par ailleurs, la stratégie de tarification est un peu trop hâtive. De nombreux utilisateurs ont alors estimé que la rentabilité n’était pas optimale et ont préféré attendre ou se tourner vers d’autres plateformes.

Ce n’est que lorsque DeepSeek est devenu populaire que les gens ont réalisé que le modèle lui-même pouvait devenir un produit de base pour attirer les utilisateurs, et qu’il n’était pas nécessaire de se précipiter pour trouver d’autres astuces.

Mais cela étant dit, d’après mon expérience, la mise à jour de Wenxin YiyanX et la version 4.5 ont en effet fait des progrès significatifs, et cela devrait être un effort pour rattraper l’écart qui s’est creusé par rapport aux autres grands modèles au cours des deux dernières années.

En regardant l’ensemble du marché intérieur, avec l’itération et la mise à niveau continues de produits tels que DeepSeek, Doubao et Kimi, ainsi que les efforts de Wenxin Yiyan cette fois-ci, une situation concurrentielle saine se forme dans le domaine des grands modèles nationaux, ce qui est assez intéressant.

Ai+.

Aujourd’hui, je vais vous emmener évaluer deux modèles de Baidu.

J’ai mis l’URL ici : https://yiyan.baidu.com/

Wenxin-4.5

Commençons par examiner Wenxin 4.5. Je lui ai envoyé une photo pour voir s’il le reconnaît.

Image

En conséquence, il a été reconnu comme une coupe en agate à tête d’animal de la dynastie Tang, une relique culturelle dotée d’un riche héritage culturel.

Ensuite, j’ai changé l’image du mème pour voir s’il pouvait comprendre la blague.

Image

Je ne m’attendais pas à ce qu’il puisse saisir le sens. Sa capacité à comprendre les images est vraiment excellente.

Ensuite, j’ai augmenté la difficulté et envoyé une image sans mots pour tester Wenxin 4.5.

Image

En conséquence, Wenxin 4.5 a directement répondu qu’il s’agissait de « Les Évadés », ce qui était tout à fait correct.

On peut dire que la combinaison des données d’index et des modèles multimodaux de Baidu est vraiment puissante . De plus, ils sont multimodaux, ne se limitant pas aux images, mais peuvent également reconnaître pleinement l’audio et la vidéo.

Ce qui m’a encore plus surpris, c’est que Wenxin 4.5 peut également générer des images continues multi-scènes.

Par exemple, j’ai pris une photo de mon ami et je l’ai transformé en Iron Man.

Image

L’effet est vraiment cool.

Parlons maintenant des compétences rédactionnelles. Wenxin 4.5 est plutôt performant pour la rédaction de contenu relativement rigide et basé sur des modèles.

Mais si je devais écrire une histoire, il faudrait améliorer mes compétences rédactionnelles. Parfois, j’ai l’impression que les histoires qu’il écrit sont un peu « rigides » et pas assez raffinées.

Balayez vers le haut et vers le bas pour afficher

Nous pouvons même laisser l’IA nous aider à concevoir le programme de l’entretien. Les mots clés peuvent être rédigés ainsi :

Modèle de raisonnement X1

Ensuite, nous continuons à tester un autre modèle de base de Baidu – Wenxin X1

Laissez X1 réécrire l’histoire :

Balayez vers le haut et vers le bas pour afficher

Les écrits de Wenxin X1 semblent avoir un style propre, moins rigide qu’avant. C’est une lecture très intéressante, qui ressemble un peu à un roman.

Laissez-moi essayer autre chose. Je vais lui demander de commenter sur un ton sarcastique l’incident des serviettes hygiéniques reconditionnées, révélé lors du gala CCTV 315 de cette année. Afin de me tenir au courant des points chauds en temps réel, j’ai consulté la recherche en ligne.

Image

Examinons d’abord le processus de réflexion de Wenxin X1. À en juger par son cheminement, la logique est très claire et il s’agit d’une véritable « réflexion ».

Image

Enfin, regardez sa réponse :

Image

Cette bouche est vraiment aussi mauvaise que DeepSeekR1. On dirait que Baidu a fait beaucoup d’efforts cette fois-ci.

Puisqu’il s’agit d’un modèle de raisonnement, sa capacité de raisonnement logique doit être testée avec soin.

La question du test reste la question classique du code de collision de balle, qui teste non seulement la compréhension de la physique par le modèle, mais implique également des capacités de calcul mathématique et de programmation.

J’ai déjà testé Grok3, DeepSeek et ChatGPT pour cette tâche dans des articles précédents. Les résultats sont variables. Les amis intéressés peuvent aller voir : 👉Qui est l’IA la plus puissante ?! En testant Grok3, DeepSeek et ChatGPT, les résultats pour les quatre dimensions sont inattendus.

Mots clés : Écrivez un morceau de code HTML. Un hexagone régulier se trouve au milieu de la page web. Une particule dans l’hexagone possède une vitesse initiale. Elle rebondit lorsqu’elle touche le bord de l’hexagone. À chaque fois, le bord change de couleur de manière aléatoire.

Jetons un œil aux performances du Wenxin X1 cette fois-ci :

Tout d’abord, j’ai attendu trois minutes pour réfléchir, ce qui était un peu lent. Ensuite, l’effet de course n’était pas très bon, et la balle ne pouvait toucher que les deux mêmes côtés.

Image

Cela montre qu’en termes de raisonnement logique, le Wenxin X1 peut effectivement présenter quelques lacunes. Au moins, d’après ce test, il reste loin des meilleurs modèles de raisonnement du secteur.

Mais je pense que les capacités d’appel d’outils du Wenxin X1 sont vraiment accrocheuses.

Laissez-moi vous donner un exemple qui m’a choqué. Je lui ai demandé de peaufiner un roman, et il a généré un document avec le contenu modifié et me l’a livré.

Regardons son fonctionnement : il appelle d’abord l’outil Document Q&A, puis il utilise l’outil Code Interpreter, pour un total de trois appels d’outils.

Image

Après plus d’une minute de révision, il m’a remis un document propre et bien rangé.

Image

Il s’agit peut-être du premier modèle de réflexion approfondie du secteur prenant en charge l’appel d’outils autonome. Sa capacité de raisonnement, sa fonction réseau et sa puissante capacité d’appel d’outils sont tout simplement exceptionnelles.

De plus, son prix API est très bon marché, la moitié du prix du R1 de DeepSeek en termes d’entrée et de sortie.

Dans l’ensemble, les performances du Wenxin X1 cette fois-ci m’ont vraiment impressionné.

Trois phrases.

Permettez-moi de partager ceci aujourd’hui. Enfin, je le résumerai en trois phrases :

1. Wenxin 4.5 est un modèle multimodal capable de comprendre du texte, des images, des vidéos, de l’audio et d’autres choses, et doté d’une bonne capacité d’interprétation.

2. Wenxin X1 présente encore quelques lacunes en matière de raisonnement logique et il existe toujours un écart entre lui et les meilleurs modèles de raisonnement de l’industrie.

3. La capacité d’appel d’outils du Wenxin X1 est vraiment accrocheuse.

Leave a Comment

Your email address will not be published. Required fields are marked *