Op <code>OpenAI</code>’s gigantic GPT-3 hints at the limits of language models for AI

ประมาณ 1 ปีกว่าที่ล่างมา OpenAI บริษัท ประดิษฐ์ปัญญาประดิษฐ์ที่มีสำนักงานในแซนฟรานซิสโก เป็นประกาศที่สะท้อนถึงความก้าวหน้าอย่างมหาศาลของคอมพิวเตอร์ในการสร้างประโยคธรรมชาติและแก้ปัญหาอย่างเช่น ปิดภาษา และสร้างช่วงข้อความยาวที่ผู้คนพบว่าค่อนข้างมนุษย์

งานล่าสุดจากทีมนั้นแสดงให้เห็นถึงวิธีการคิดของ OpenAI ที่เจริญมาในบางด้าน สร้างขึ้นใหม่ในชื่อว่า GPT-3 เป็นผลงานใหม่ล่าสุดที่ปลุกได้ความสนใจ สร้างโดยบุคคลที่เขียนเดียวกันกับเวอร์ชันก่อนหน้า รวมถึง Alec Radford และ Ilya Sutskever ร่วมกับผู้ร่วมงานจำนวนมาก รวมถึงนักวิทยาศาสตร์จากจอห์นสฮอปกินส์ ยูนิเวอร์ซิตี้

นี่น่าจะเป็นโมเดลภาษาที่ใหญ่อย่างแท้จริง เมื่อเรียกว่ามันสามารถกลืนข้อมูลขนาดสองระดับมากกว่ารุ่นก่อนหน้าได้

แต่ภายในการลั่นไล่ ว่าโครงการใหญ่ก็ดี ทีมของ OpenAI กำลังเข้าใกล้ความจริงที่ลึกซึ้งบางประการ คล้ายกับที่ดร.เดวิด โบว์แมนเคยทำเมื่อสิ้นสุดของภาพยนตร์ 2001

ฝังอยู่ในส่วนท้ายของเอกสารทั้ง 72 หน้า, Language Models are Few-Shot Learners, ที่โพสต์ในเซิร์ฟเวอร์ปรินต์ arXiv อาทิตย์ที่ผ่านมา, มีการรับรู้ที่น่าทึ่งบางอย่าง

"ความจำกัดที่มีความเชื่อถือได้มากขึ้นของวิธีการทั่วไปที่อธิบายในกระดาษวิจัยนี้ - การขยายตัวของโมเดลที่เหมือนกับการป้อนเชิงรุกหรือเชิงระหว่าง - คือว่ากลายเป็นไปได้ที่ในที่สุดจะเกิดปัญหาเกี่ยวกับวัตถุประสงค์ของการพรีเทรนก่อนหน้านี้หรืออาจจะเป็นไปได้แล้ว"

สิ่งที่ผู้เขียนกล่าวถึงคือการสร้างเครือข่ายประสาทที่เพียงแค่ทำนายความน่าจะเป็นของคำถัดไปในประโยคหรือวลีใดก็อาจมีข้อจำกัดของมัน เพียงแค่ทำให้มันมีกำลังการคำนวณที่มากขึ้นและเติมตัวมันด้วยข้อความที่มากขึ้นอาจไม่ให้ผลลัพธ์ที่ดีขึ้น นั่นเป็นการยอมรับที่สำคัญภายในกระดาษวิจัยซึ่งเป็นการเฉลิมฉลองความสำเร็จในการประกอบกำลังคำนวณที่มากขึ้นกับปัญหานั้น

ในการเข้าใจว่าความสรุปของผู้เขียนมีความสำคัญอย่างไร ให้พิจารณาถึงวิธีที่เรามาถึงที่นี่กันบ้าง ประวัติศาสตร์ของงาน OpenAI ในด้านภาษานี้เป็นส่วนหนึ่งของประวัติศาสตร์ของวิธีการที่มีความคล้ายคลึงกัน โดยที่มีความสำเร็จที่เพิ่มขึ้นเรื่อยๆ เมื่อเทคโนโลยีถูกขยายให้ใหญ่ขึ้นเรื่อยๆ

ต้นแบบของ GPT และ GPT-2 เป็นการปรับใช้ของสิ่งที่เรียกว่า Transformer ซึ่งเป็นการปฏิวัติองค์กรที่ถูกสร้างขึ้นที่ Google เมื่อปี 2017 Transformer ใช้ฟังก์ชั่นที่เรียกว่า attention เพื่อคำนวณความน่าจะเป็นที่จะมีคำปรากฏขึ้น เมื่อได้รับคำที่แล้ว OpenAI เกิดความขัดแย้งขึ้นในปีก่อน เมื่อบอกว่าจะไม่เผยแพร่รหัสต้นฉบับของเวอร์ชันที่ใหญ่ที่สุดของ GPT-2 เนื่องจากเครื่องหมายนั้นอาจตกอยู่ในมือผู้ไม่เหมาะสมและถูกใช้งานในการก่อกวนความเชื่อให้กับคนด้วยเรื่องอย่างข่าวปลอม

กระดาษข่าวใหม่นี้ยกระดับ GPT ไปยังระดับถัดไปโดยทำให้มันใหญ่ขึ้นอีกต่อไป รุ่นที่ใหญ่ที่สุดของ GPT-2 ซึ่งไม่ได้โพสต์ในรูปแบบซอร์ส มีพารามิเตอร์ทั้งหมด 1.5 พันล้าน ส่วน GPT-3 มีพารามิเตอร์ทั้งหมด 175 พันล้าน พารามิเตอร์คือการคำนวณในเครือข่ายประสาททางเทคนิคที่ใช้น้ำหนักที่มากหรือน้อยกว่าตัวเลขบางอย่างของข้อมูลเพื่อให้ข้อมูลดังกล่าวมีความสำคัญมากหรือน้อยกว่าในการคำนวณรวมของข้อมูลโดยรวม นั่นเป็นน้ำหนักเหล่านี้ที่ทำให้ข้อมูลมีรูปร่างและให้เครือข่ายประสาทมีความเข้าใจเกี่ยวกับข้อมูลนั้น

การเพิ่มน้ำหนักตามเวลาได้นำพลังงานให้กับผลทดสอบตัวบ่งชี้ที่น่าประทับใจแห่งครอบครัวโปรแกรม GPT และอนุพันธ์คนใหญ่ของ Transformer อื่น ๆ เช่น BERT ของ Google ผลลัพธ์ที่ได้มีประสิทธิภาพที่น่าทึ่งอย่างต่อเนื่อง

ไม่เป็นไรว่ามีคนจำนวนมากที่ได้ชี้แจงว่าโมเดลภาษาเหล่านี้ไม่ได้เข้าใจภาษาอย่างหมายถึงจริงๆ แต่พวกเขากำลังทำดีมากในการทดสอบ และนั่นคือสิ่งที่น่ายกย่อง

เวอร์ชันล่าสุดแสดงผลเชิงปริมาณอีกครั้ง อย่างเช่น GPT-2 และโปรแกรมอื่น ๆ ที่ใช้ Transformer เป็นพื้นฐาน GPT-3 ถูกฝึกสอนด้วยชุดข้อมูล Common Crawl ซึ่งเป็นชุดข้อมูลตัวอย่างจากเว็บโลก ที่มีจำนวนคำในส่วนของเอกสารประมาณหนึ่งล้านล้านคำ "ชุดข้อมูลและขนาดโมเดลมันใหญ่กว่า GPT-2 โดยประมาณสองสิบล้านเท่า" ผู้เขียนเขียน

GPT-3 ที่ใช้พารามิเตอร์ 175 พันล้านสามารถทำงานตามที่ผู้เขียนอธิบายในการเรียนรู้บิดากลให้ได้ การเรียนรู้บิดากลหมายถึงว่าเครือข่ายประสาท GPT ไม่ได้ถูกฝึกใหม่เพื่อทำงานเช่นการสมบูรณ์ประโยค โดยกำหนดตัวอย่างงาน เช่น ประโยคที่ไม่สมบูรณ์ และประโยคที่สมบูรณ์ GPT-3 จะทำหน้าที่สมบูรณ์ประโยคที่ต้องการทุกประโยคที่ไม่สมบูรณ์ที่ให้

GPT-3 สามารถเรียนรู้วิธีการทำงานของงานเดียว ดียิ่งขึ้นในบางกรณี กว่าเวอร์ชันของ Transformer ที่ได้ถูกปรับแต่งเฉพาะการทำงานนั้นเท่านั้น ด้วยเหตุนี้ GPT-3 จึงเป็นความสำเร็จของความรวมรู้ที่แผ่อย่างแท้จริง ให้โหลดข้อมูลให้มากพอจนกระทั่งน้ำหนักของมันเหมาะสม และมันสามารถทำงานได้อย่างดีบนงานที่ระบุไว้หลายอย่างโดยไม่ต้องพัฒนาต่อเพิ่มเติม

นี่คือส่วนที่เรื่องราวถึงจุดสรุปสมองเฉียงของกระดาษใหม่ หลังจากแจ้งรายละเอียดผลลัพธ์ที่น่าประทับใจของ GPT-3 ในงานทางภาษาตั้งแต่การเติมประโยคไปถึงการคาดเดาการแบบความสัมพันธ์ตามตรรกศาสตร์ของข้อความไปจนถึงการแปลภาษาระหว่างภาษา ผู้เขียนบันทึกถึงความขัดข้อง

"แม้ว่า GPT-3 จะมีการปรับปรุงที่เป็นจำนวนเลขและคุณภาพที่แข็งแกร่ง โดยเฉพาะเมื่อเปรียบเทียบกับตัวอย่างก่อนหน้าของมัน GPT-2 ยังคงมีจุดอ่อนที่ต้องพูดถึง"

ปัญหาที่เกิดขึ้นคือไม่สามารถบอกระหว่างประโยคอย่างแม่นยำในเรื่องที่เรียกว่า Adversarial NLI ได้อย่างแม่นยำเต็มที่ เรื่อง NLI หรือการสรุปภาษาธรรมชาติคือการทดสอบที่โปรแกรมต้องกำหนดความสัมพันธ์ระหว่างประโยคสองประโยค นักวิจัยจาก Facebook และมหาวิทยาลัย North Carolina ได้นำเสนอรุ่น Adversarial ซึ่งมนุษย์สร้างคู่ประโยคที่ยากต่อคอมพิวเตอร์ในการแก้ไข

GPT-3 ทำได้ดี "น้อยกว่าโอกาส" ในเรื่อง Adversarial NLI ตามที่ผู้เขียนระบุ หนักสำหรับมันคือ บริษัทมีพลังประมวลผลสูงถึง 175 พันล้านน้ำหนัก ผู้เขียนไม่แน่ใจว่าทำไมผลลัพธ์ในบางงานก็ยังมีความเป็นไปไม่ได้อย่างใดอย่างหนึ่ง

นั่นเป็นเวลาที่พวกเขามาถึงสรุปผลว่า อาจเพียงแค่การให้อาหารข้อมูลที่มีขนาดใหญ่ให้กับเครื่องจักรขนาดใหญ่ไม่ใช่คำตอบสุดท้าย

ยิ่งน่าตกใจมากยิ่งกว่าสิ่งที่สังเกตได้ถัดไป เป็นการวลีที่เติบโตที่จริงว่าหลักการพยากรณ์สิ่งที่จะเกิดขึ้นกับภาษาอาจเป็นการเข้าใจผิดที่ผู้เขียนได้เตือนไว้ พวกเขาอาจจะเสนอไอเดียที่ผิดที่บุคคลอื่นกำลังมองหาอยู่

"ด้วยวัตถุประสงค์ที่รับภารกิจภายในตนเอง เราจำเป็นต้องบังคับภารกิจที่ต้องการให้กับปัญหาการทำนาย," พวกเขาเขียน, "ในที่สุด การเรียกใช้ระบบภาษาที่มีประโยชน์ (เช่นผู้ช่วยเสมือนจริง) อาจจะคิดว่าดีกว่าถ้าตัดสินใจทำการกระทำตามเป้าหมาย ไม่ใช่เพียงแค่การทำนายเท่านั้น"

ผู้เขียนจะเว้นไว้ให้สำหรับครั้งหน้าเพื่อระบุว่าพวกเขาจะดำเนินการปฏิบัติในทิศทางใหม่ที่น่าตื่นเต้นนี้อย่างไร

ไม่ว่าจะตระหนักหรือไม่ว่า "ใหญ่" อาจจะไม่ได้เป็นสิริมงคลที่สุดในที่สุด ผลลัพธ์ที่ดีขึ้นของ GPT-3 ในหลายงานอาจจะกระตุ้นความปรารถนาให้เพิ่มขึ้นและไม่มีสิ้นสุดสำหรับการทำให้เครือข่ายประสาทที่ใหญ่ขึ้นและใหญ่ขึ้น ด้วยโมเดลที่มีพารามิเตอร์อยู่ 175 พันล้าน GPT-3 เป็นกษัตริย์ของเครือข่ายประสาทขนาดใหญ่ อย่างชั่วคราว ในเดือนเมษายน บริษัทชิป AI Tenstorrent ให้คำบรรยายถึงเครือข่ายประสาทในอนาคตที่มีพารามิเตอร์เกินหนึ่งล้าน

สำหรับส่วนใหญ่ของชุมชนการเรียนรู้ของเครื่องจักร การสร้างโมเดลภาษาที่ใหญ่ขึ้นเรื่อยๆ จะยังคงเป็นสถานะที่เลิศสุดอยู่

ไทยรับเงินใหม่ขนาดยักษ์ของ OpenAI GPT-3 เป็นการพูดถึงขีดจำกัดของแบบจำลองภาษาสำหรับ AI

บทความที่เกี่ยวข้อง