ล่าสุด Baidu ได้เปิดตัวการเคลื่อนไหวครั้งใหญ่ โดยเปิดตัวรุ่นใหม่ 2 รุ่นพร้อมกัน ได้แก่Wenxin 4.5 และ Inference Model X1
สิ่งที่น่าแปลกใจยิ่งไปกว่านั้นคือเดิมทีทั้งสองโมเดลนี้มีแผนที่จะเปิดให้สาธารณชนเข้าชมฟรีในวันที่ 1 เมษายนแต่ตอนนี้ทุกคนสามารถสัมผัสได้ฟรีแล้ว

Wenxin 4.5 เป็นโมเดลหลายโหมดที่สามารถตีความข้อความ รูปภาพ วิดีโอ เสียง และเนื้อหาอื่นๆ ได้อย่างครอบคลุม และความสามารถของมันยังเหนือกว่า GPT-4o ของ OpenAI มาก
เช่นเดียวกับ DeepSeek-R1, X1 มีความสามารถในการคิดอย่างลึกซึ้งเข้าใจ วางแผน สะท้อน และพัฒนาคำถามที่ถูกยกขึ้นมา และยังรองรับการทำงานหลายรูปแบบอีกด้วย
สิ่งที่น่าทึ่งยิ่งไปกว่านั้นคือ X1 ยังเป็นเครื่องแรกที่จะเรียกใช้งานเครื่องมือพิเศษต่างๆ โดยอัตโนมัติ เช่น การค้นหาขั้นสูง การถามตอบเอกสาร การวาด AI ล่ามรหัส การอ่านลิงค์เว็บ การค้นหาเชิงวิชาการของ Baidu และอื่นๆ อีกมากมาย
คิด.
ฉันต้องบอกว่าพัฒนาการของ Wen Xin Yi Yan น่าทึ่งจริงๆ
เมื่อสองปีก่อน มันโผล่ออกมาจากที่ไหนก็ไม่รู้ มันเป็นรุ่นใหญ่ทั่วไปรุ่นแรกในประเทศของเราทุกคนตื่นเต้นมากในตอนนั้น ราวกับว่าเราได้เห็น ChatGPT เวอร์ชันภาษาจีน
แต่ช่วงเวลาดีๆ นั้นไม่ยาวนานนัก เมื่อมี “คู่ต่อสู้” เข้ามามากขึ้นเรื่อยๆ เหวินซินยี่หยานก็เริ่มเปิดเผยปัญหาบางอย่าง
ประการแรก การวางตำแหน่งผลิตภัณฑ์ค่อนข้างไม่มั่นคง ชั่วขณะหนึ่งพวกเขาบอกว่าต้องการปรับปรุงการค้นหา แต่ชั่วขณะต่อมาก็รีบเร่งสร้างสรรค์ผลงานอย่างสร้างสรรค์ ความสามารถในการแข่งขันหลักของพวกเขากำลังเลือนลางลงเรื่อยๆ แน่นอนว่านี่คือปัญหาทั่วไปของบริษัทโมเดลส่วนใหญ่
อีกสิ่งหนึ่งคือกลยุทธ์การเรียกเก็บเงินนั้นค่อนข้างรีบร้อนเกินไปการดำเนินการดังกล่าวทำให้ผู้ใช้จำนวนมากรู้สึกว่าไม่คุ้มทุน และพวกเขาจึงเลือกที่จะรอและดูหรือหันไปใช้แพลตฟอร์มอื่นแทน
จนกระทั่ง DeepSeek ได้รับความนิยม ผู้คนจึงตระหนักว่าโมเดลดังกล่าวสามารถกลายมาเป็นผลิตภัณฑ์หลักในการดึงดูดผู้ใช้ได้ และไม่จำเป็นต้องรีบคิดค้นเทคนิคอื่นๆ
แต่จากประสบการณ์ของผม การอัปเดต Wenxin YiyanX และเวอร์ชัน 4.5 ถือว่ามีความคืบหน้าที่สำคัญมาก และน่าจะเป็นความพยายามที่จะตามให้ทันช่องว่างที่ลดลงเมื่อเปรียบเทียบกับรุ่นใหญ่ๆ อื่นๆ ในช่วง 2 ปีที่ผ่านมา
เมื่อมองไปที่ตลาดในประเทศทั้งหมด โดยมีการพัฒนาและอัพเกรดผลิตภัณฑ์อย่างต่อเนื่อง เช่น DeepSeek, Doubao และ Kimi รวมถึงความพยายามของ Wenxin Yiyan ในครั้งนี้ สถานการณ์การแข่งขันที่เป็นประโยชน์กำลังก่อตัวขึ้นในสนามโมเดลขนาดใหญ่ในประเทศ ซึ่งน่าสนใจอย่างยิ่ง
ไอ+.
วันนี้ผมจะพาไปรีวิว Baidu ทั้ง 2 รุ่นครับ
ฉันใส่ URL ไว้ที่นี่: https://yiyan.baidu.com/
เหวินซิน-4.5
มาดู Wenxin 4.5 กันก่อน ฉันส่งรูปให้มันดูว่ามันจะจดจำได้ไหม

เป็นผลให้ได้รับการยอมรับว่าเป็นถ้วยหินโมราหัวสัตว์ของราชวงศ์ถัง ซึ่งเป็นมรดกทางวัฒนธรรมที่มีมรดกทางวัฒนธรรมอันล้ำค่า
แล้วฉันก็เปลี่ยนภาพมีมเพื่อดูว่ามันจะเข้าใจเรื่องตลกหรือเปล่า

ไม่คิดว่าจะเข้าใจความหมายได้ขนาดนี้ความสามารถในการเข้าใจภาพก็ดีมาก
จากนั้นผมเพิ่มความยากและส่งภาพโดยไม่ใช้คำพูดเพื่อทดสอบ Wenxin 4.5

ด้วยเหตุนี้ Wenxin 4.5 จึงตอบตรงๆ ว่ามันคือเรื่อง “The Shawshank Redemption” ซึ่งถูกต้องทุกประการ
เรียกได้ว่าการผสมผสานข้อมูลดัชนีของ Baidu กับโมเดลมัลติโหมดนั้นทรงพลังมาก และไม่เพียงแต่จำกัดเฉพาะรูปภาพเท่านั้น แต่ยังสามารถจดจำเสียงและวิดีโอได้อย่างสมบูรณ์อีกด้วย
สิ่งที่ทำให้ฉันประหลาดใจมากยิ่งขึ้นก็คือ Wenxin 4.5 ยังสามารถสร้างภาพต่อเนื่องหลายฉากได้อีกด้วย
เช่น ฉันถ่ายรูปเพื่อนฉันแล้วเปลี่ยนเขาให้กลายเป็นไอรอนแมน

ผลลัพธ์ก็เจ๋งจริงๆ
ตอนนี้มาพูดถึงทักษะการเขียนกันบ้าง Wenxin 4.5 ทำงานได้ค่อนข้างดีเมื่อเขียนเนื้อหาที่ค่อนข้างยืดหยุ่นและมีเทมเพลต
แต่ถ้าผมต้องเขียนเรื่องราว ผมต้องพัฒนาทักษะการเขียนของตัวเองให้ดีขึ้น บางครั้งผมรู้สึกว่าเรื่องราวที่เขียนนั้น “แข็งทื่อ” เกินไปและยังไม่ประณีตพอ
แบบจำลองการใช้เหตุผล X1
ต่อไปนี้เราจะทำการทดสอบโมเดลหลักอีกตัวหนึ่งของ Baidu ต่อไป นั่นคือ Wenxin X1
ให้ X1 เขียนเรื่องใหม่:
เรื่องราวที่ Wenxin X1 เขียนนั้นดูเหมือนจะมีรูปแบบเฉพาะของตัวเอง ไม่แข็งทื่อเหมือนแต่ก่อนอ่านได้ค่อนข้างน่าสนใจ และให้ความรู้สึกเหมือนนิยายอยู่บ้าง
ขอลองอย่างอื่นดูบ้าง ฉันจะขอให้มันแสดงความคิดเห็นด้วยน้ำเสียงประชดประชันเกี่ยวกับเหตุการณ์ผ้าอนามัยที่ปรับปรุงใหม่ที่ถูกเปิดเผยในงาน CCTV 315 Gala ปีนี้เพื่อให้ทันกับจุดร้อนแบบเรียลไทม์ ฉันจึงลองค้นหาทางออนไลน์

มาดูกระบวนการคิดของ Wenxin X1 กันก่อน เมื่อพิจารณาจากกระบวนการคิดแล้วตรรกะนั้นชัดเจนมาก และมันเป็น “ความคิด” ที่แท้จริง

สุดท้ายมาดูคำตอบกัน:

ปากนี้แย่พอๆ กับ DeepSeekR1 เลย ดูเหมือนว่า Baidu จะทุ่มเทความพยายามมากในครั้งนี้
เนื่องจากเป็นโมเดลการใช้เหตุผล ความสามารถในการใช้เหตุผลเชิงตรรกะจึงต้องได้รับการทดสอบอย่างรอบคอบ
คำถามทดสอบยังคงเป็นคำถามเกี่ยวกับโค้ดการชนลูกบอลแบบคลาสสิก ซึ่งไม่เพียงแต่ทดสอบความเข้าใจทางฟิสิกส์ของโมเดลเท่านั้น แต่ยังเกี่ยวข้องกับการคำนวณทางคณิตศาสตร์และความสามารถในการเขียนโปรแกรมอีกด้วย
ฉันได้ทดสอบ Grok3, DeepSeek และ ChatGPT สำหรับงานนี้ไปแล้วในบทความก่อนหน้า ผลลัพธ์ที่ได้นั้นแตกต่างกันไป เพื่อนที่สนใจสามารถเข้าไปดูได้ที่ 👉AI ตัวไหนแข็งแกร่งที่สุด?! การทดสอบ Grok3, DeepSeek และ ChatGPT นั้นได้ผลลัพธ์ทั้งสี่มิติที่คาดไม่ถึง
คำกระตุ้น: เขียนโค้ด HTML หนึ่งชิ้น มีรูปหกเหลี่ยมปกติอยู่ตรงกลางหน้าเว็บ มีอนุภาคอยู่ในรูปหกเหลี่ยมที่มีความเร็วเริ่มต้น อนุภาคจะเด้งกลับเมื่อสัมผัสขอบของรูปหกเหลี่ยม ทุกครั้งที่อนุภาคสัมผัสขอบ อนุภาคจะเปลี่ยนสีแบบสุ่ม
มาดูประสิทธิภาพของ Wenxin X1 ครั้งนี้กันบ้างดีกว่า:
อันดับแรก ผมรอประมาณ 3 นาทีระหว่างที่คิด ซึ่งถือว่าค่อนข้างช้า ประการที่สอง เอฟเฟกต์การวิ่งไม่ค่อยดีนัก และลูกบอลก็โดนแค่ 2 ฝั่งเท่านั้น

สิ่งนี้แสดงให้เห็นว่าในแง่ของการใช้เหตุผลเชิงตรรกะ Wenxin X1 อาจมีข้อบกพร่องบางประการ อย่างน้อยจากการทดสอบครั้งนี้ก็ยังห่างไกลจากโมเดลการใช้เหตุผลชั้นนำของอุตสาหกรรมอยู่บ้าง
แต่ฉันคิดว่าความสามารถในการเรียกเครื่องมือของ Wenxin X1 นั้นสะดุดสายตาจริงๆ
ขอยกตัวอย่างที่ทำให้ฉันตกใจ ฉันขอให้มันช่วยขัดเกลานวนิยาย จากนั้นมันก็สร้างเอกสารที่มีเนื้อหาที่แก้ไขแล้วและส่งมาให้ฉัน
มาดูการทำงานของมันกัน: ขั้นแรกจะเรียกเครื่องมือ Document Q&A จากนั้นจึงใช้เครื่องมือ Code Interpreter ซึ่งรวมแล้วต้องเรียกเครื่องมือทั้งหมดสามครั้ง

หลังจากแก้ไขไปมากกว่าหนึ่งนาทีฉันก็ได้รับเอกสารที่เรียบร้อยและเป็นระเบียบ
นี่อาจเป็นโมเดลการคิดเชิงลึกรุ่นแรกในอุตสาหกรรมที่รองรับการเรียกใช้เครื่องมืออัตโนมัติความสามารถในการใช้เหตุผล ฟังก์ชันเครือข่าย และความสามารถในการเรียกใช้เครื่องมืออันทรงพลังนั้นน่าทึ่งจริงๆ
ยิ่งกว่านั้นราคา API ของมันยังถูกมาก คือเพียงครึ่งเดียวของราคา R1 ของ DeepSeek ในแง่ของทั้งอินพุตและเอาต์พุต
โดยรวมแล้วผลงานของ Wenxin X1 ในครั้งนี้ทำให้ฉันประทับใจมาก
สามประโยค
วันนี้ขอแชร์ให้ฟังนะครับ สุดท้ายนี้ขอสรุปเป็น 3 ประโยคดังนี้
1. Wenxin 4.5 เป็นโมเดลหลายโหมดที่สามารถเข้าใจข้อความ รูปภาพ วิดีโอ เสียง และอื่นๆ และมีความสามารถในการตีความที่ดี
2. Wenxin X1 ยังคงมีข้อบกพร่องบางประการในการใช้เหตุผลเชิงตรรกะและยังคงมีช่องว่างระหว่าง Wenxin X1 กับโมเดลการใช้เหตุผลชั้นนำของอุตสาหกรรม
3. ความสามารถในการเรียกเครื่องมือของ Wenxin X1 นั้นสะดุดสายตาจริงๆ