เทคโนโลยีใหม่นี้อาจทำลาย GPT-4 และทุกอย่างที่คล้ายกัน

สำหรับความกระหน่ำเว็บบอทระบบปัญญาประดิษฐ์ชื่อ ChatGPT จาก OpenAI และเทคโนโลยีตัวติดต่อต่อไป GPT-4 โปรแกรมเหล่านี้เป็นแค่แอปพลิเคชันซอฟต์แวร์เท่านั้น และเช่นเดียวกับแอปพลิเคชันทั้งหมด การทำงานของมันอาจมีข้อจำกัดทางเทคนิคซึ่งอาจทำให้ประสิทธิภาพของมันไม่ได้ดีสูงสุด

ในบทความที่เผยแพร่ในเดือนมีนาคมนี้ นักวิทยาการปัญญาประดิษฐ์ (AI) ที่มหาวิทยาลัยสแตนฟอร์ดและสถาบันการศึกษาสูงแห่งประเทศแคนาดา MILA for AI ได้วางแผนสร้างเทคโนโลยีที่มีความเป็นไปได้สูงกว่า GPT-4 หรืออะไรก็ตามที่เป็นคล้ายคลึงกันในด้านการเก็บรวบรวมข้อมูลขนาดใหญ่และแปลงข้อมูลเหล่านั้นให้กลายเป็นคำตอบ

นั่นไม่ใช่ทั้งหมด: ลูกจ้างเก่าของแอปเปิ้ลต้องการแทนที่สมาร์ทโฟนด้วยเครื่องมือนี้

ที่รู้จักในนามของ Hyena, เทคโนโลยีนี้สามารถบรรจุความแม่นยำเทียบเท่ากับการทดสอบตัววัดมาตรฐาน เช่น การตอบคำถาม ในขณะที่ใช้พลังคำนวณเพียงเพียงบางส่วนเท่านั้น ในบางกรณี โค้ด Hyena สามารถจัดการกับปริมาณข้อความที่กระทบทั้งนั้น ทำให้เทคโนโลยีแบบ GPT หยุดทำงานเนื่องจากหมดหน่วยความจำและล้มเหลว

"ผลลัพธ์ที่ดีที่เราได้ในระดับพารามิเตอร์ครึ่งหนึ่งในการใช้เทคนิค attention ให้เป็นหนึ่งเท่าที่เราต้องการ" นักเขียนเขียนในบทความนี้ เพียงแค่กล่าวถึงชื่อของรายงานหนังสือ AI ที่สำคัญในปี 2017 ที่นี้ 'Attention is all you need' ในงานวิจัยนี้ นักวิทยาศาสตร์ Ashish Vaswani จาก Google และเพื่อนร่วมงานได้เสนอโปรแกรม AI ชื่อรางวัลของ Google ที่เรียกว่า Transformer โดย Transformer กลายเป็นพื้นฐานในแบบจำลองภาษาขนาดใหญ่ล่าสุด

แต่ Transformer ยังมีข้อบกพร่องที่ใหญ่โต นั่นคือการใช้งานสิ่งที่เรียกว่า "ความสนใจ" ที่โปรแกรมคอมพิวเตอร์จะโอนข้อมูลจากกลุ่มสัญลักษณ์หนึ่ง เช่นคำพูด ไปยังกลุ่มสัญลักษณ์ใหม่ เช่นคำตอบที่คุณเห็นจาก ChatGPT ซึ่งเป็นผลลัพธ์ที่แสดงออกมา

เพิ่มเติม: GPT-4 คืออะไร? นี่คือทุกอย่างที่คุณต้องรู้

การดำเนินการความสนใจนั้นเป็นเครื่องมือที่สำคัญของโปรแกรมภาษาใหญ่ทุกโปรแกรม รวมถึง ChatGPT และ GPT-4 โดยมี "ความซับซ้อนทางโดยสารวณคณิตศาสตร์" (นอกจากผลศาสตร์ของการคำนวณ) (วิกิ "ขนาดเวลา" ของการคำนวณ) ความซับซ้อนดังกล่าวหมายถึงเวลาที่ ChatGPT ใช้ในการสร้างคำตอบจะเพิ่มขึ้นเป็นสี่เหลี่ยมของขนาดของข้อมูลที่รับเข้ามาเป็นอินพุต

ในบางช่วงเวลาหากมีข้อมูลมากเกินไป - คำตอบมากเกินไปในข้อความหรือสตริงของการสนทนาในเวลาหลายชั่วโมงกับโปรแกรม - โปรแกรมอาจถูกรบกวนในการให้คำตอบ หรือจะต้องให้ GPU มากขึ้นเพื่อให้การทำงานเร็วขึ้น ซึ่งจะทำให้เกิดความต้องการในการคำนวณที่สูงขึ้น

ในกระดาษวิชาการใหม่ 'การสร้างโมเดลภาษาแบบ Convoluational ขนาดใหญ่ต่อไปนี้ของเราผ่านทางเซิร์ฟเวอร์การเผยแพร่บน arXive รีพริ้นต์' นักวิจัยหลักคือ Michael Poli จากสแตนฟอร์ดและเพื่อนร่วมงานของเขานำเสนอการแทนที่ฟังก์ชันการใช้ความสนใจใน Transformer ด้วยสิ่งที่เรียกว่า Hyena ซึ่งเป็นอย่างหนึ่งที่ต่ำกว่าระดับย่อยจากกระดานชั้นหัวแหล็ง

นอกจากนี้: Auto-GPT คืออะไร? ทุกอย่างที่คุณต้องรู้เกี่ยวกับเครื่องมือปัญญาประดิษฐ์ที่แข็งแกร่งถัดไป

ผู้เขียนไม่ได้อธิบายชื่อไว้ แต่สามารถจินตนาการเหตุผลหลายประการสำหรับโปรแกรม "Hyena" ได้ สัตว์ประเทศแอฟริกาที่มีความสามารถในการล่าอยู่ได้หลายไมล์ ในความหมายหนึ่ง เมื่อมีโมเดลภาษาที่มีประสิทธิภาพมากเป็นกลุ่ม ก็อาจเหมือนกับสิงโตเสือกินมนุษย์คนหนึ่งได้หากินไปทั้งไมล์ๆ เพื่อหาอาหารกิน

แต่ผู้เขียนจริงๆ ออกแบบให้ใหญ่ในเรื่องของ "เฮียราคี" เหมือนกับชื่อหัวเรื่องตัวเอง และครอบครัวของเฮียน่ามีระบบหลักที่เข้มงวดที่สมาชิกในคลานของเฮียน่าสามารถมีระดับที่แตกต่างกันซึ่งกำหนดอำนาจ เหมือนอย่างเดียวกับนั่น เมื่อนำโปรแกรมเฮียน่ามาใช้ จะใส่ประสิทธิภาพของการทำงานบางอย่างที่ง่ายมากให้มักตลอดเวลา ซึ่งจะรวมกันเป็นระบบของการประมวลผลข้อมูลอยู่บนระดับโครงสร้างที่เชื่อมต่อกันอย่างเป็นชั้นชั้น ในส่วนด้านคอมบิเนชั่นนั้น จะช่วยให้โปรแกรมได้ชื่อว่าเป็นเฮียน่า

Also:เอกสารและคำศัพท์การแปลที่ดีที่สุดสามารถเลือกข้อความใดก็ได้หากมีความเหมาะสม

ผู้เขียนร่วมของบทความรวมอยู่ในสมาชิกที่มีชื่อเสียงในโลก AI เช่น Yoshua Bengio ผู้อำนวยการวิทยาศาสตร์ของ MILA ซึ่งเป็นผู้ได้รับรางวัล Turing ปี 2019 ซึ่งเป็นรางวัลเทียบเท่ากับรางวัลโนเบลในด้านคอมพิวเตอร์ Bengio ถูกจัดให้เป็นผู้พัฒนากลไกความสนใจก่อน Vaswani และทีมนำพัฒนามันใน Transformer ได้ปรับใช้

นอกจากนี้ ในคณะผู้เขียนยังรวมถึงศาสตราจารย์ช่วยงานวิทยาการคอมพิวเตอร์จากมหาวิทยาลัยสแตนฟอร์ดอยู่เช่นกัน ซึ่งชื่อ Christopher Ré ที่ได้ช่วยในปีหลังๆ เพื่อก้าวหน้าที่สำคัญในแนวความคิดของ AI เป็น "ซอฟต์แวร์ 2.0"

เพื่อค้นหาวิธีทดแทนที่มีความซับกว่าการใช้ attention ทีมงานของ Poli เริ่มศึกษาวิธีที่กลไก attention ทำงานอย่างไรเพื่อหาว่างานเหล่านั้นสามารถทำได้อย่างมีประสิทธิภาพมากขึ้นได้หรือไม่

ปฏิบัติที่เกิดขึ้นล่าสุดในวิทยาการ AI ที่เรียกว่าตัวแปลงเลวร้ายซึ่งเป็นการสร้างความเข้าใจต่อสิ่งที่เกิดขึ้นในลึกของเครือข่ายประสาท ภายใน "วงจร" การคำนวณของการให้ความสนใจ คุณสามารถคิดเอาเป็นการแยกส่วนซอฟต์แวร์ออกจากกันอย่างที่คุณจะแยกโมเดลของนาฬิกาหรือ PC เพื่อดูส่วนประกอบและค้นหาวิธีที่มันทำงาน

อีกอย่าง:ผมใช้ ChatGPT เขียนประโยคเดียวกันใน 12 ภาษาโปรแกรมยอดนิยม แล้วดูผลอย่างไร

หนึ่งในงานที่ถูกอ้างอิงโดย Poli และทีมคือชุดการทดลองของนักวิจัย Nelson Elhage จากบริษัทเริ่มต้นทางด้าน AI ที่ชื่อ Anthropic การทดลองเหล่านั้นจะแยกส่วนส่วนของโปรแกรม Transformer เพื่อดูว่า attention กำลังทำอะไร

ในปัจจุบัน สิ่งที่ Elhage และทีมได้ค้นพบคือการให้ความสนใจทำงานในระดับพื้นฐานที่เรียกว่าด้วยการทำงานคอมพิวเตอร์ที่เรียบง่าย เช่นการคัดลอกคำจากข้อมูลล่าสุดแล้ววางลงในผลลัพธ์

ตัวอย่างเช่น หากมีการพิมพ์ลงในโปรแกรมขนาดใหญ่เช่น ChatGPT ประเภทรูปแบบภาษามากมาย เช่น "มิสเตอร์ เดอร์สลีย์เป็นผู้อำนวยการของบริษัทชื่อ แกรนนิงส์..." เพียงแค่พิมพ์ "D-u-r-s" คือเพียงต้นฉบับของชื่อนั้นอาจเพียงพอที่จะนำโปรแกรมมาทำการเติมคำเสริมให้สมบูรณ์ เช่นการเติมคำนั้นคือ "เดอร์สลีย์" เนื่องจากโปรแกรมได้เห็นชื่อนี้ในประโยคก่อนหน้าในSorcerer's Stone ระบบสามารถคัดลอกข้อมูลตัวอักษร "l-e-y" แล้วประกอบประโยคให้สมบูรณ์

นอกจากนี้:ฟิวเจอริสต์กล่าวว่า ChatGPT มีลักษณะเหมือน 'ความชำนาญในด้านต่างประเทศ' มากกว่าในเรื่องสมองมนุษย์

อย่างไรก็ตาม การดำเนินการให้ความสนใจพบปัญหาความซับซ้อนที่เป็นรูปแบบกำลังสองเมื่อปริมาณคำเพิ่มขึ้นอย่างต่อเนื่อง คำที่มากขึ้นต้องการ "น้ำหนัก" หรือพารามิเตอร์ที่มีการรันการดำเนินการให้ความสนใจ

เนื้อหาต่อไปนี้ได้ถูกเขียนไว้โดยผู้เขียน: "รูปแบบของ Transformer คือเครื่องมือที่มีประสิทธิภาพสำหรับการโมเดลลิ่งลำดับ แต่ก็มีข้อจำกัดบางประการอยู่ด้วย หนึ่งในจุดที่สังเกตได้ง่ายคือต้นทุนในการคำนวณที่เพิ่มขึ้นอย่างรวดเร็วเมื่อความยาวของลำดับข้อมูลนำเข้าเพิ่มขึ้น"

ในขณะที่รายละเอียดทางเทคนิคของ ChatGPT และ GPT-4 ยังไม่ได้เปิดเผยโดย OpenAI อย่างชัดเจน แต่เชื่อว่ามันอาจมีพารามิเตอร์จำนวน 1 ล้านล้านหรือมากกว่านั้น การทำงานของพารามิเตอร์เหล่านั้นต้องใช้ชิป GPU เพิ่มเติมจาก Nvidia ซึ่งนำไปสู่ค่าคอมพิวเตอร์ที่สูงขึ้น

เพื่อลดต้นทุนการคำนวณที่เป็นกระบวนการกำหนดความสนใจของข้อมูลออกมาในเวอร์ชันสองอันที่มีปัญหามากเป็นมากที่สุด โปลิและทีมของเขาเปลี่ยนประสิทธิภาพของกระบวนการคำนวณโดยใช้ที่เรียกว่า "การส่งเสริมอะตาชั่น" ซึ่งเป็นหนึ่งในการดำเนินการเก่าที่สุดในโปรแกรมปัญญาประดิษฐ์ ประทับใจจากสมัยในปี 1980 การส่งเสริมอะตาชั่นก็เป็นเพียงกรองที่สามารถเลือกไอเทมในข้อมูลได้ เช่น พิกเซลในรูปถ่ายดิจิทัล หรือคำในประโยค

นอกจากนี้: ความสำเร็จของ ChatGPT อาจส่งผลให้เกิดการเปลี่ยนแปลงที่เข้มงวดในเรื่องความลับในปัญญาประดิษฐ์ ตามที่ผู้บุกเบิกด้านปัญญาประดิษฐ์มาแนะนำ เบงจิโอ

Poli และทีมของเขาทำรูปแบบของการผสานกัน: เขาใช้งานที่ Vrije Universiteit Amsterdam ของนักวิทยาการ David Romero และเพื่อนร่วมงานที่อนุภาควิจัยสตานฟอร์ด Daniel Y. Fu และทีมของเขาที่นำเสนอการใช้ Convolutional Filters ในลำดับของคำในการปรับใช้งาน ความสามารถในการปรับเปลี่ยนขนาดของตัวกรองตลอดเวลาช่วยลดจำนวนพารามิเตอร์ที่ใช้โปรแกรมต้องมีแบบมีค่าใช้จ่ายได้

ผลลัพธ์ของการรวมร่างกายคือการนำกรอบเชิงบทถัดไปสามารถปรับใช้กับปริมาณข้อความที่ไม่มีข้อจำกัดโดยไม่จำเป็นต้องมีพารามิเตอร์มากขึ้นเพื่อทำการคัดลอกข้อมูลที่มากขึ้นไป เป็นวิธีที่ "ไม่ต้องใช้ความสนใจ" ตามที่ผู้เขียนต้องการให้เห็น

"นักประมวลผลสัตว์สาบแมว (Hyena operators) สามารถลดระยะความต่างกลุ่มคุณภาพได้อย่างมีนัยสำคัญด้วยความสนใจในมากขึ้น," โปลีและทีมงานเขียน, "ทำให้ได้ perplexity และประสิทธิผลในความต่อเนื่องเชิงล่างที่เป็นอันเทียบเท่ากับงบประมาณในการคำนวณขนาดเล็กกว่า" Perplexity เป็นหนึ่งในคำศัพท์ทางเทคนิคที่อ้างถึงระดับความซับซ้อนของคำตอบที่ระบบเช่น ChatGPT สร้างขึ้นมา

ในการสาธิตความสามารถของ Hyena นักเขียนทดสอบโปรแกรมด้วยชุดของเบนช์มาร์กที่ช่วยในการประเมินว่าโปรแกรมภาษาไหนที่ดีต่อการทำงานทางด้าน AI ในหลากหลายงาน

ความคิดเห็นเพิ่มเติม: ผู้ศิลป์ที่มั่นใจว่า :'สิ่งใหม่ๆ แปลกที่เกิดขึ้นในซอฟต์แวร์,' ตามที่ศาสตราจารย์ AI ของสแตนฟอร์ด Chris Ré กล่าว

หนึ่งในการทดสอบคือ "The Pile", ชุดข้อมูลขนาด 825 กิกะไบต์ ที่รวมข้อมูลเอกสารต่าง ๆ ในปี 2020 โดย Eleuther.ai, หน่วยงานวิจัยด้าน AI ไม่แสวงหาผลกำไร ข้อมูลถูกเก็บรวบรวมมาจากแหล่งที่มา "คุณภาพสูง" เช่น PubMed, arXiv, GitHub, สำนักจดสิทธิบัตรของสหรัฐฯ และอื่น ๆ ทำให้แหล่งที่มามีความเข้มแข็งมากกว่าการอภิปรายใน Reddit เป็นต้น

ความท้าทายสำคัญสำหรับโปรแกรมนี้คือการสร้างคำถัดไปเมื่อได้รับประโยคใหม่เป็นอินพุต โปรแกรม Hyena สามารถบรรลุคะแนนเทียบเท่ากับโปรแกรม GPT ต้นฉบับของ OpenAI จากปี 2018 โดยใช้การคำนวณที่น้อยกว่า 20% -- "โครงสร้างการถอดรหัสด้วยการคำนึงถึงที่อยู่เบี่ยงเบน GPT คุณภาพระดับแอตเทนชั่นที่แท้จริงเป็นคำถามน้อยลง, นักวิจัยเขียน

ต่อไปนี้ผู้เขียนทดสอบโปรแกรมในงานที่เรียกว่า SuperGLUE ที่เป็นภารกิจการวิเคราะห์ความคิดและตั้งคำถามที่ถูกเสนอในปี 2019 โดยนักวิจัยจากมหาวิทยาลัยนิวยอร์ก หน่วยวิจัย AI ของ Facebook, หน่วย DeepMind ของ Google และมหาวิทยาลัยวอชิงตัน.

อย่างเช่น เมื่อมีประโยค "ร่างกายของฉันสร้างเงาที่หญ้า" และมีทางเลือกสองตัวสำหรับสาเหตุคือ "ต้นแสงกำลังขึ้น" หรือ "หญ้าถูกตัด" และถูกถามให้เลือกอันหนึ่งหรืออีกอันหนึ่ง โปรแกรมควรสร้างผลลัพธ์ที่เหมาะสมว่า "ต้นแสงกำลังขึ้น"

ในงานหลายงาน โปรแกรม Hyena ได้รับคะแนนที่ใกล้เคียงกับเวอร์ชันของ GPT ในขณะที่ถูกฝึกอบรมด้วยข้อมูลการฝึกอบรมน้อยกว่าครึ่งหนึ่งของข้อมูลการฝึกอบรม

อีกอย่าง: วิธีใช้ Bing ใหม่ (และวิธีที่แตกต่างจาก ChatGPT)

น่าสนใจยิ่งกว่าคือสิ่งที่เกิดขึ้นเมื่อผู้เขียนเพิ่มความยาวของวลีที่ใช้เป็นอินพุต: คำที่มากขึ้นมีประสิทธิภาพในการปรับปรุง. ที่ 2,048 "โทเค็น" ซึ่งคุณสามารถคิดเป็นคำได้, ไฮีน่าจำเป็นต้องใช้เวลาน้อยกว่าในการทำภารกิจทางภาษาเมื่อเปรียบเทียบกับวิธีการใช้ความสนใจ

ที่จำนวนคำสะสม 64,000 ในบทความนี้หนังสือเขียนว่า, "การเร่งความเร็วของจระเข้เต็มที่ถึง 100 เท่า" -- เป็นการปรับปรุงประสิทธิภาพแบบเพิ่มขึ้นหนึ่งร้อยเท่า

พอลีและทีมของเขาอ้างว่าพวกเขาไม่ได้เพียงแค่ลองเสนอวิธีที่แตกต่างกับไฮีน่าเท่านั้น พวกเขาได้ "ทำลายอุปสรรคสี่เหลี่ยม" ทำให้มีการเปลี่ยนแปลงคุณภาพว่าซอฟต์แวร์สามารถคำนวณผลลัพธ์ได้ยากขึ้น

พวกเขาแนะนำว่า ยังมีการเปลี่ยนแปลงที่อาจมีความหมายอย่างสำคัญเพิ่มเติมในอนาคต: "การทำลายขีดจำกัดแบบทรงกลมเป็นขั้นตอนสำคัญในการเปิดโอกาสใหม่สำหรับการเรียนรู้ลึกซึ้ง เช่นการใช้หนังสือเต็มตอนเป็นบริบทและการสร้างดนตรียาวนานหรือการประมวลผลรูปภาพในมาตราฐาน gigapixel," เขาเขียนในบทความ

ความสามารถของสายพันธุ์แฮยีนาในการใช้ตัวกรองที่ยืดหยุ่นมากขึ้นบนพันธุกรรมประมวลผลภาษาที่เจ้าของนิยามไว้ หมายถึงสามารถเพิ่มความหมายให้กับคำถามและการสนทนาให้มีความสัมพันธ์กับคำวิจารณ์ที่อยู่หลายพันคำหรือสนทนาระยะทางไกลจากกระแสการสนทนาปัจจุบัน - ในลักษณะเดียวกับสายพันธุ์แฮยีนาที่ล่าสัตว์ตามระยะทางหลายไมล์

ส่วนอื่น ๆ: ChatGPT และตัวเลือกทางเล่นอื่น ๆ ที่ดีที่สุดสำหรับ AI chatbot

"ผู้ดำเนินการไฮีน่าสามารถมีบริบทที่ไม่มีข้อจำกัด," พวกเขาเขียน. "นั่นคือ พวกเขาไม่ถูก จำกัด โดยตัวบ่งชี้ เช่น ความใกล้ชิด และสามารถเรียนรู้ความขึ้นต่อกันได้ระหว่างองค์ประกอบใด ๆ ของ [input] "

นอกจากนี้ยังสามารถใช้โปรแกรมกับข้อมูลที่แตกต่างกันได้ เช่น รูปภาพ และบางที วิดีโอและเสียง

สำคัญที่จะระบุว่าโปรแกรม Hyena ที่แสดงในบทความเล็กตัวเมื่อเปรียบเทียบกับ GPT-4 หรือ GPT-3 ซึ่ง GPT-3 มีพารามิเตอร์หรือน้ำหนัก 175 พันล้าน แต่รุ่นที่ใหญ่ที่สุดของ Hyena มีเพียง 1.3 พันล้านพารามิเตอร์เท่านั้น ดังนั้นต้องรอดูว่า Hyena จะทำได้ดีเพียงใดในการเปรียบเทียบหัว-หัวกับ GPT-3 หรือ 4

แต่ถ้าประสิทธิภาพที่ได้ถูกบันทึกตัวในซอฟต์แวร์ Hyena เวอร์ชันใหญ่กว่า นั้น อาจเป็นแนวคิดใหม่ที่อาจกลายเป็นรูปแบบหนึ่งที่แพร่หลายเช่นกัน อย่างที่ความสนใจที่เกิดขึ้นในช่วงสิบปีที่ผ่านมา

เหมือนกับที่ Poli และทีมวิจัยสรุปว่า: "รูปแบบที่ไม่ซับซ้อนและไม่เกินระยะเวลากำลังสองของการออกแบบ เช่น Hyena ที่ได้รับคำแนะนำจากหลักการที่เรียบง่ายและประเมินผลในตัวชี้วัดความสามารถในการตีความกลไก อาจเป็นพื้นฐานสำหรับโมเดลขนาดใหญ่ที่มีประสิทธิภาพ"

เทคโนโลยีใหม่นี้อาจทำให้ GPT-4 และทุกอย่างที่เกี่ยวข้องถูกทั้งหมดถลาด

บทความที่เกี่ยวข้อง