![gpt-4-640b66db8c60d-sej-1520x800.jpg](https://static-lib.s3.amazonaws.com/cms/gpt_4_640b66db8c60d_sej_1520x800_1899fa76fc.jpg)
ประธานหน่วยงานเทคนอลโรงงานของไมโครซอฟท์เยอรมนี คุณ Andreas Braun ได้ยืนยันว่า GPT-4 จะเปิดตัวในสัปดาห์ที่คล้ายกับวันที่ 9 มีนาคม พ.ศ. 2566 และ GPT-4 จะเป็น AI แบบ multimodal ซึ่งหมายถึงว่ามันจะสามารถปฏิบัติการในหลายชนิดของข้อมูลอินพุท เช่น วิดีโอ รูปภาพ และเสียง
อัปเดต: GPT-4 วางจำหน่ายเมื่อ 14 มีนาคม 2566
OpenAI ปล่อย GPT-4 เมื่อวันที่ 14 มีนาคม พ.ศ. 2566 นั้น มันเป็นโมเดลที่ใช้รับคำแนะนำทั้งภาพและข้อความ
Modal เป็นคำศัพท์ที่ใช้ในการเรียนรู้ของเครื่องจักรเพื่อบ่งบอกถึงรูปแบบของข้อมูลเช่นข้อความ แต่ยังรวมถึงความรู้สึกเช่นเสียง ภาพ กลิ่น ฯลฯ
อัปเดตของ OpenAI อ้างอิงถึงขนาดของความก้าวหน้าของ GPT-4:
"...ในขณะที่ยังไม่สามารถดำเนินการได้ดีกว่ามนุษย์ในสถานการณ์จริงหลายประการ แต่สามารถแสดงผลที่มีระดับเทียบเท่ากับมนุษย์ในเบนช์มาร์กต์ทางวิชาการและโปรแกรมวิชาชีพต่าง ๆ"
"เช่นผ่านการสอบแบบจำลองค่าบาร์ด้วยคะแนนอยู่ในอันดับ 10% ด้านบนของผู้ทดสอบ; ในทางตรงกันข้าม คะแนนของ GPT-3.5 อยู่ในกลุ่มล่าง 10%."
"เราใช้เวลา 6 เดือนในการปรับปรุง GPT-4 ด้วยการสอนแบบท้าทายจากโปรแกรมทดสอบที่ต้านทาน และ ChatGPT ซึ่งผลลัพธ์ที่ได้เป็นที่ดีที่สุดของเรา (แม้กระทั่งไม่ใช่อย่างสมบูรณ์) ในเรื่องความเป็นจริง ความสามารถในการเปลี่ยนทิศทาง และการปฏิเสธการยอมรับงานที่เกินขอบเขต"
โมเดลภาษาหลายรูปแบบขนาดใหญ่
สิ่งที่สำคัญที่สุดจากการประกาศคือ GPT-4 เป็นโหมดแบบหลายวิถี (SEJ ได้ทำนายว่า GPT-4 เป็นโหมดแบบหลายวิถี เมื่อมกราคม 2023)。
คำว่า Modality หมายถึงชนิดของอินพุตที่ต้องการให้โมเดลภาษาขนาดใหญ่จัดการกับ (ในกรณีนี้)
Multimodal สามารถประกอบด้วยข้อความ การพูด, ภาพและวิดีโอได้
GPT-3 และ GPT-3.5 เป็นระบบที่ทำงานเฉพาะในรูปแบบข้อความเท่านั้น
ตามรายงานข่าวจากเยอรมัน GPT-4 อาจสามารถทำงานในโหมดอย่างน้อย 4 รูปแบบได้ คือ รูปภาพ เสียง (การได้ยิน) ข้อความ และวิดีโอ
ดร. อันเดรียส เบราว์นช่างเทคโนโลยีองค์กรสูงสุด Microsoft ประเทศเยอรมนีกล่าวว่า:
เราจะเปิดตัว GPT-4 ในสัปดาห์หน้า ซึ่งจะมีโมเดลที่รองรับการใช้งานหลากหลายแบบจะเสนอความเป็นไปได้ที่แตกต่างกันอย่างสิ้นเชิง - ตัวอย่างเช่น วิดีโอ ..."
รายงานไม่ได้ระบุข้อมูลเฉพาะสำหรับ GPT-4 ดังนั้นไม่แน่ใจว่าสิ่งที่แชร์เกี่ยวกับรูปแบบผสมของข้อมูลเป็นเฉพาะกับ GPT-4 หรือเป็นทั่วไป
ผู้อำนวยการกลยุทธ์ธุรกิจของ Microsoft ฮอลเกอร์ เคนน์ อธิบายเรื่อง multi-modality อย่างไรก็ตาม รายงานไม่ชัดเจนว่าเขากำลังอ้างถึง GPT-4 ที่เป็น multi-modality หรือ multi-modality โดยทั่วไป
ฉันเชื่อว่าการอ้างถึงการใช้มากกว่าหนึ่งวิธีการเป็นเรื่องที่โดดเด่นใน GPT-4
ข่าวรายงานที่แชร์:
“เคน์อธิบายถึงการใช้ปัญญาประดิษฐ์แบบหลายโหมด ที่สามารถแปลงข้อความไม่เพียงแต่เสียงเท่านั้น แต่ยังสามารถแปลงเป็นภาพ ดนตรี และวิดีโอได้อีกด้วย”
ข้อความที่น่าสนใจอีกอย่างหนึ่งคือ ไมโครซอฟท์กำลังทำงานเกี่ยวกับ "ค่าเชื่อมั่น" เพื่อให้ปัญญาประดิษฐ์ของพวกเขามีข้อมูลที่ถูกต้องเพื่อทำให้เชื่อถือได้มากขึ้น
Microsoft Kosmos-1
สิ่งที่อาจจะไม่ได้รับการรายงานอย่างเต็มที่ในสหรัฐอเมริกาคือ Microsoft ได้เปิดตัวโมเดลภาษาแบบหลายรูปแบบที่ชื่อ Kosmos-1 ต้นเดือนมีนาคม พ.ศ. 2566
ตามรายงานจากเว็บไซต์ข่าวชื่อ Heise.de ของประเทศเยอรมัน:
“...ทีมได้ทดสอบโมเดลที่ได้รับการฝึกสอนล่วงหน้าด้วยการทดสอบต่าง ๆ โดยได้ผลลัพธ์ที่ดีในการจำแนกภาพ การตอบคำถามเกี่ยวกับเนื้อหาของภาพ การติดป้ายภาพอัตโนมัติ การรับรู้ข้อความแบบออปติคัลและงานสร้างเสียง”
...การคิดตามภาพหรือการวิเคราะห์รูปภาพโดยไม่ใช้ภาษาเป็นขั้นตอนกลาง ดูเหมือนจะเป็นสิ่งสำคัญที่นี่...
Kosmos-1 เป็นรูปแบบการแสดงผลที่รวมภาพและข้อความเข้าด้วยกัน
GPT-4 ไปไกลกว่า Kosmos-1 เพราะมันเพิ่มโหมดที่สามซึ่งมีวิดีโอ และยังเห็นด้วยในเรื่องของเสียงด้วย
ทำงานได้ในหลายภาษา
GPT-4 ดูเหมือนจะทำงานได้ทุกภาษา มันถูกอธิบายว่าสามารถรับคำถามเป็นภาษาเยอรมันและตอบเป็นภาษาอิตาลีได้
นี่คือตัวอย่างที่น่าแปลกด้วย เพราะใครที่จะถามคำถามเป็นภาษาเยอรมันแล้วต้องการรับคำตอบเป็นภาษาอิตาเลียน?
นี่คือสิ่งที่ได้รับการยืนยัน:
“...เทคโนโลยีได้ก้าวข้ามไปถึงจุดที่มันสามารถทำงานในภาษาทั้งหมดได้: คุณสามารถถามคำถามเป็นภาษาเยอรมันและได้รับคำตอบเป็นภาษาอิตาลี"
ด้วยความสามารถในการใช้รูปแบบหลายรูปแบบ ไมโครซอฟต์(-โอเพนเอไอ)จะ 'ทำให้แบบจำลองเข้าใจได้ซบซ้อน'”
ฉันเชื่อว่าจุดสำคัญของการพัฒนาใหม่คือโมเดลสามารถเชื่อมโยงความรู้กับภาษาอื่น ๆ ได้ ดังนั้นถ้าคำตอบเป็นภาษาอิตาเลียน โมเดลจะรู้และสามารถให้คำตอบในภาษาที่ถามมาได้
นั่นจะทำให้มันคล้ายกับเป้าหมายของ AI แบบ multimodal ของ Google ที่เรียกว่า MUM มัม ถูกกล่าวว่าสามารถให้คำตอบเป็นภาษาอังกฤษสำหรับข้อมูลที่มีอยู่เฉพาะในภาษาอื่น เช่น ภาษาญี่ปุ่น
การประยุกต์ใช้ของ GPT-4
ยังไม่มีประกาศตอนนี้เกี่ยวกับสถานที่ที่ GPT-4 จะปรากฏตัว แต่ Azure-OpenAI ได้รับการกล่าวถึงโดยเฉพาะ
Google กำลังพยายามที่จะเลื่อนตัวเข้าหา Microsoft โดยการรวมเทคโนโลยีที่แข่งขันเข้ากับเครื่องมือค้นหาของตัวเอง การพัฒนานี้ทำให้ความรู้สึกเพิ่มมากขึ้นว่า Google กำลังถูกล้าหลังและขาดความนำหน้าใน AI ที่เผชิญหน้ากับผู้บริโภค
Google ปัจจุบันมีการผนวกรวม AI ในผลิตภัณฑ์หลายรายการ เช่น Google Lens, Google Maps และพื้นที่อื่น ๆ ที่ผู้ใช้งานสัมพันธ์กับ Google อยู่ วิธีการนี้เป็นการใช้ AI เป็นเทคโนโลยีการช่วยเหลือ เพื่อช่วยผู้คนในงานเล็ก ๆ น้อย ๆ
วิธีที่ Microsoft กำลังนำมาใช้นั้นมีความเห็นที่ชัดเจนกว่าและแน่นอนว่ากำลังดึงดูดความสนใจทั้งหมดและเสริมสร้างภาพของ Google ให้เป็นคนวิ่งหลังและต่อต้านการต่อสู้
อ่านประกาศเปิดตัวอย่างเป็นทางการของ OpenAI GPT-4 ที่นี่
อ่านข้อมูลเดิมเกี่ยวกับการรายงานเป็นภาษาเยอรมันที่นี่:
GPT-4 กำลังจะมาในสัปดาห์หน้า – และมันจะเป็น multimodal ตามที่ ไมโครซอฟต์ เยอรมนี กล่าว