OpenAI GPT-4 กำลังมาถึงในช่วงกลางเดือนมีนาคม พ.ศ. 2566

ประธานหน่วยงานเทคนอลโรงงานของไมโครซอฟท์เยอรมนี คุณ Andreas Braun ได้ยืนยันว่า GPT-4 จะเปิดตัวในสัปดาห์ที่คล้ายกับวันที่ 9 มีนาคม พ.ศ. 2566 และ GPT-4 จะเป็น AI แบบ multimodal ซึ่งหมายถึงว่ามันจะสามารถปฏิบัติการในหลายชนิดของข้อมูลอินพุท เช่น วิดีโอ รูปภาพ และเสียง

อัปเดต: GPT-4 วางจำหน่ายเมื่อ 14 มีนาคม 2566

OpenAI ปล่อย GPT-4 เมื่อวันที่ 14 มีนาคม พ.ศ. 2566 นั้น มันเป็นโมเดลที่ใช้รับคำแนะนำทั้งภาพและข้อความ

Modal เป็นคำศัพท์ที่ใช้ในการเรียนรู้ของเครื่องจักรเพื่อบ่งบอกถึงรูปแบบของข้อมูลเช่นข้อความ แต่ยังรวมถึงความรู้สึกเช่นเสียง ภาพ กลิ่น ฯลฯ

อัปเดตของ OpenAI อ้างอิงถึงขนาดของความก้าวหน้าของ GPT-4:

"...ในขณะที่ยังไม่สามารถดำเนินการได้ดีกว่ามนุษย์ในสถานการณ์จริงหลายประการ แต่สามารถแสดงผลที่มีระดับเทียบเท่ากับมนุษย์ในเบนช์มาร์กต์ทางวิชาการและโปรแกรมวิชาชีพต่าง ๆ"

"เช่นผ่านการสอบแบบจำลองค่าบาร์ด้วยคะแนนอยู่ในอันดับ 10% ด้านบนของผู้ทดสอบ; ในทางตรงกันข้าม คะแนนของ GPT-3.5 อยู่ในกลุ่มล่าง 10%."

"เราใช้เวลา 6 เดือนในการปรับปรุง GPT-4 ด้วยการสอนแบบท้าทายจากโปรแกรมทดสอบที่ต้านทาน และ ChatGPT ซึ่งผลลัพธ์ที่ได้เป็นที่ดีที่สุดของเรา (แม้กระทั่งไม่ใช่อย่างสมบูรณ์) ในเรื่องความเป็นจริง ความสามารถในการเปลี่ยนทิศทาง และการปฏิเสธการยอมรับงานที่เกินขอบเขต"

โมเดลภาษาหลายรูปแบบขนาดใหญ่

สิ่งที่สำคัญที่สุดจากการประกาศคือ GPT-4 เป็นโหมดแบบหลายวิถี (SEJ ได้ทำนายว่า GPT-4 เป็นโหมดแบบหลายวิถี เมื่อมกราคม 2023)。

คำว่า Modality หมายถึงชนิดของอินพุตที่ต้องการให้โมเดลภาษาขนาดใหญ่จัดการกับ (ในกรณีนี้)

Multimodal สามารถประกอบด้วยข้อความ การพูด, ภาพและวิดีโอได้

GPT-3 และ GPT-3.5 เป็นระบบที่ทำงานเฉพาะในรูปแบบข้อความเท่านั้น

ตามรายงานข่าวจากเยอรมัน GPT-4 อาจสามารถทำงานในโหมดอย่างน้อย 4 รูปแบบได้ คือ รูปภาพ เสียง (การได้ยิน) ข้อความ และวิดีโอ

ดร. อันเดรียส เบราว์นช่างเทคโนโลยีองค์กรสูงสุด Microsoft ประเทศเยอรมนีกล่าวว่า:

เราจะเปิดตัว GPT-4 ในสัปดาห์หน้า ซึ่งจะมีโมเดลที่รองรับการใช้งานหลากหลายแบบจะเสนอความเป็นไปได้ที่แตกต่างกันอย่างสิ้นเชิง - ตัวอย่างเช่น วิดีโอ ..."

รายงานไม่ได้ระบุข้อมูลเฉพาะสำหรับ GPT-4 ดังนั้นไม่แน่ใจว่าสิ่งที่แชร์เกี่ยวกับรูปแบบผสมของข้อมูลเป็นเฉพาะกับ GPT-4 หรือเป็นทั่วไป

ผู้อำนวยการกลยุทธ์ธุรกิจของ Microsoft ฮอลเกอร์ เคนน์ อธิบายเรื่อง multi-modality อย่างไรก็ตาม รายงานไม่ชัดเจนว่าเขากำลังอ้างถึง GPT-4 ที่เป็น multi-modality หรือ multi-modality โดยทั่วไป

ฉันเชื่อว่าการอ้างถึงการใช้มากกว่าหนึ่งวิธีการเป็นเรื่องที่โดดเด่นใน GPT-4

ข่าวรายงานที่แชร์:

“เคน์อธิบายถึงการใช้ปัญญาประดิษฐ์แบบหลายโหมด ที่สามารถแปลงข้อความไม่เพียงแต่เสียงเท่านั้น แต่ยังสามารถแปลงเป็นภาพ ดนตรี และวิดีโอได้อีกด้วย”

ข้อความที่น่าสนใจอีกอย่างหนึ่งคือ ไมโครซอฟท์กำลังทำงานเกี่ยวกับ "ค่าเชื่อมั่น" เพื่อให้ปัญญาประดิษฐ์ของพวกเขามีข้อมูลที่ถูกต้องเพื่อทำให้เชื่อถือได้มากขึ้น

Microsoft Kosmos-1

สิ่งที่อาจจะไม่ได้รับการรายงานอย่างเต็มที่ในสหรัฐอเมริกาคือ Microsoft ได้เปิดตัวโมเดลภาษาแบบหลายรูปแบบที่ชื่อ Kosmos-1 ต้นเดือนมีนาคม พ.ศ. 2566

ตามรายงานจากเว็บไซต์ข่าวชื่อ Heise.de ของประเทศเยอรมัน:

“...ทีมได้ทดสอบโมเดลที่ได้รับการฝึกสอนล่วงหน้าด้วยการทดสอบต่าง ๆ โดยได้ผลลัพธ์ที่ดีในการจำแนกภาพ การตอบคำถามเกี่ยวกับเนื้อหาของภาพ การติดป้ายภาพอัตโนมัติ การรับรู้ข้อความแบบออปติคัลและงานสร้างเสียง”

...การคิดตามภาพหรือการวิเคราะห์รูปภาพโดยไม่ใช้ภาษาเป็นขั้นตอนกลาง ดูเหมือนจะเป็นสิ่งสำคัญที่นี่...

Kosmos-1 เป็นรูปแบบการแสดงผลที่รวมภาพและข้อความเข้าด้วยกัน

GPT-4 ไปไกลกว่า Kosmos-1 เพราะมันเพิ่มโหมดที่สามซึ่งมีวิดีโอ และยังเห็นด้วยในเรื่องของเสียงด้วย

ทำงานได้ในหลายภาษา

GPT-4 ดูเหมือนจะทำงานได้ทุกภาษา มันถูกอธิบายว่าสามารถรับคำถามเป็นภาษาเยอรมันและตอบเป็นภาษาอิตาลีได้

นี่คือตัวอย่างที่น่าแปลกด้วย เพราะใครที่จะถามคำถามเป็นภาษาเยอรมันแล้วต้องการรับคำตอบเป็นภาษาอิตาเลียน?

นี่คือสิ่งที่ได้รับการยืนยัน:

“...เทคโนโลยีได้ก้าวข้ามไปถึงจุดที่มันสามารถทำงานในภาษาทั้งหมดได้: คุณสามารถถามคำถามเป็นภาษาเยอรมันและได้รับคำตอบเป็นภาษาอิตาลี"

ด้วยความสามารถในการใช้รูปแบบหลายรูปแบบ ไมโครซอฟต์(-โอเพนเอไอ)จะ 'ทำให้แบบจำลองเข้าใจได้ซบซ้อน'”

ฉันเชื่อว่าจุดสำคัญของการพัฒนาใหม่คือโมเดลสามารถเชื่อมโยงความรู้กับภาษาอื่น ๆ ได้ ดังนั้นถ้าคำตอบเป็นภาษาอิตาเลียน โมเดลจะรู้และสามารถให้คำตอบในภาษาที่ถามมาได้

นั่นจะทำให้มันคล้ายกับเป้าหมายของ AI แบบ multimodal ของ Google ที่เรียกว่า MUM มัม ถูกกล่าวว่าสามารถให้คำตอบเป็นภาษาอังกฤษสำหรับข้อมูลที่มีอยู่เฉพาะในภาษาอื่น เช่น ภาษาญี่ปุ่น

การประยุกต์ใช้ของ GPT-4

ยังไม่มีประกาศตอนนี้เกี่ยวกับสถานที่ที่ GPT-4 จะปรากฏตัว แต่ Azure-OpenAI ได้รับการกล่าวถึงโดยเฉพาะ

Google กำลังพยายามที่จะเลื่อนตัวเข้าหา Microsoft โดยการรวมเทคโนโลยีที่แข่งขันเข้ากับเครื่องมือค้นหาของตัวเอง การพัฒนานี้ทำให้ความรู้สึกเพิ่มมากขึ้นว่า Google กำลังถูกล้าหลังและขาดความนำหน้าใน AI ที่เผชิญหน้ากับผู้บริโภค

Google ปัจจุบันมีการผนวกรวม AI ในผลิตภัณฑ์หลายรายการ เช่น Google Lens, Google Maps และพื้นที่อื่น ๆ ที่ผู้ใช้งานสัมพันธ์กับ Google อยู่ วิธีการนี้เป็นการใช้ AI เป็นเทคโนโลยีการช่วยเหลือ เพื่อช่วยผู้คนในงานเล็ก ๆ น้อย ๆ

วิธีที่ Microsoft กำลังนำมาใช้นั้นมีความเห็นที่ชัดเจนกว่าและแน่นอนว่ากำลังดึงดูดความสนใจทั้งหมดและเสริมสร้างภาพของ Google ให้เป็นคนวิ่งหลังและต่อต้านการต่อสู้

อ่านประกาศเปิดตัวอย่างเป็นทางการของ OpenAI GPT-4 ที่นี่

อ่านข้อมูลเดิมเกี่ยวกับการรายงานเป็นภาษาเยอรมันที่นี่:

GPT-4 กำลังจะมาในสัปดาห์หน้า – และมันจะเป็น multimodal ตามที่ ไมโครซอฟต์ เยอรมนี กล่าว

เปิดให้บริการ OpenAI GPT-4 เมื่อกลางเดือนมีนาคม พ.ศ. 2566

อัปเดต: GPT-4 วางจำหน่ายเมื่อ 14 มีนาคม 2566

โมเดลภาษาหลายรูปแบบขนาดใหญ่

Microsoft Kosmos-1

ทำงานได้ในหลายภาษา

การประยุกต์ใช้ของ GPT-4

บทความที่เกี่ยวข้อง