ลายน้ำ ChatGPT ทำงานอย่างไร และเหตุใดจึงพ่ายแพ้

ChatGPT ของ OpenAI แนะนำวิธีสร้างเนื้อหาโดยอัตโนมัติ แต่แผนที่จะแนะนำคุณสมบัติการใส่ลายน้ำเพื่อให้ตรวจจับได้ง่ายกำลังทำให้บางคนกังวลใจ นี่คือวิธีการทำงานของลายน้ำ ChatGPT และเหตุใดจึงอาจมีวิธีแก้ไขได้

ChatGPT เป็นเครื่องมือที่น่าทึ่งที่ผู้เผยแพร่โฆษณาออนไลน์ บริษัทในเครือ และ SEO ชื่นชอบและเกรงกลัวไปพร้อมๆ กัน

นักการตลาดบางคนชอบเพราะพวกเขากำลังค้นพบวิธีใหม่ๆ ในการใช้สร้างเนื้อหาโดยย่อ โครงร่าง และบทความที่ซับซ้อน

ผู้เผยแพร่ออนไลน์กลัวโอกาสที่เนื้อหา AI จะท่วมผลการค้นหาแทนที่บทความผู้เชี่ยวชาญที่เขียนโดยมนุษย์

ด้วยเหตุนี้ ข่าวสารเกี่ยวกับฟีเจอร์ลายน้ำที่ปลดล็อกการตรวจจับเนื้อหาที่เขียนโดย ChatGPT จึงได้รับการคาดหวังเช่นเดียวกันด้วยความวิตกกังวลและความหวัง

ลายน้ำเข้ารหัส

ลายน้ำคือเครื่องหมายกึ่งโปร่งใส (โลโก้หรือข้อความ) ที่ฝังอยู่บนรูปภาพ ลายน้ำบ่งบอกว่าใครคือผู้เขียนต้นฉบับของงาน

ส่วนใหญ่จะเห็นในภาพถ่ายและวิดีโอมากขึ้นเรื่อยๆ

ข้อความลายน้ำใน ChatGPT เกี่ยวข้องกับการเข้ารหัสในรูปแบบของการฝังรูปแบบของคำ ตัวอักษร และเครื่องหมายวรรคตอนในรูปแบบของรหัสลับ

Scott Aaronson และลายน้ำ ChatGPT

นักวิทยาศาสตร์คอมพิวเตอร์ผู้ทรงอิทธิพลชื่อ Scott Aaronson ได้รับการว่าจ้างจาก OpenAI ในเดือนมิถุนายน 2022 เพื่อทำงานเกี่ยวกับ AI Safety and Alignment

AI Safety เป็นสาขาการวิจัยที่เกี่ยวข้องกับการศึกษาวิธีที่ AI อาจเป็นอันตรายต่อมนุษย์และสร้างวิธีป้องกันการหยุดชะงักเชิงลบประเภทนั้น

วารสารวิทยาศาสตร์ Distill ซึ่งมีผู้เขียนร่วมกับ OpenAI ได้กำหนดความปลอดภัยของ AI ดังนี้:

“เป้าหมายของความปลอดภัยในระยะยาวของปัญญาประดิษฐ์ (AI) คือการทำให้แน่ใจว่าระบบ AI ขั้นสูงนั้นสอดคล้องกับคุณค่าของมนุษย์อย่างน่าเชื่อถือ นั่นคือระบบจะทำสิ่งที่ผู้คนต้องการให้ทำได้อย่างน่าเชื่อถือ”

AI Alignment เป็นสาขาปัญญาประดิษฐ์ที่เกี่ยวข้องกับการทำให้แน่ใจว่า AI นั้นสอดคล้องกับเป้าหมายที่ตั้งใจไว้

แบบจำลองภาษาขนาดใหญ่ (LLM) เช่น ChatGPT สามารถนำมาใช้ในลักษณะที่อาจขัดกับเป้าหมายของ AI Alignment ที่กำหนดโดย OpenAI ซึ่งก็คือการสร้าง AI ที่มีประโยชน์ต่อมนุษยชาติ

ดังนั้น เหตุผลของการใส่ลายน้ำก็เพื่อป้องกันการนำ AI ไปใช้ในทางที่ผิดซึ่งเป็นอันตรายต่อมนุษยชาติ

Aaronson อธิบายเหตุผลของการใส่ลายน้ำเอาต์พุต ChatGPT:

“นี่อาจเป็นประโยชน์ในการป้องกันการคัดลอกผลงานทางวิชาการอย่างเห็นได้ชัด แต่ก็เช่น การโฆษณาชวนเชื่อรุ่นต่อรุ่นจำนวนมาก…”

ChatGPT ลายน้ำทำงานอย่างไร

การใส่ลายน้ำของ ChatGPT เป็นระบบที่ฝังรูปแบบทางสถิติ รหัส ลงในตัวเลือกของคำและแม้แต่เครื่องหมายวรรคตอน

เนื้อหาที่สร้างโดยปัญญาประดิษฐ์ถูกสร้างขึ้นด้วยรูปแบบการเลือกใช้คำที่คาดเดาได้อย่างเป็นธรรม

คำที่เขียนโดยมนุษย์และ AI เป็นไปตามรูปแบบทางสถิติ

การเปลี่ยนรูปแบบของคำที่ใช้ในเนื้อหาที่สร้างขึ้นเป็นวิธี "ลายน้ำ" ข้อความเพื่อให้ระบบตรวจจับได้ง่ายว่าเป็นผลิตภัณฑ์ของโปรแกรมสร้างข้อความ AI หรือไม่

เคล็ดลับที่ทำให้ไม่สามารถตรวจพบลายน้ำเนื้อหาของ AI คือการกระจายของคำยังคงมีลักษณะสุ่มคล้ายกับข้อความปกติที่สร้างโดย AI

สิ่งนี้เรียกว่าการกระจายคำแบบหลอก

Pseudorandomness เป็นชุดคำหรือตัวเลขแบบสุ่มทางสถิติที่ไม่ได้สุ่มจริงๆ

ไม่ได้ใช้ลายน้ำ ChatGPT ในขณะนี้ อย่างไรก็ตาม Scott Aaronson จาก OpenAI ได้รับการบันทึกไว้โดยระบุว่ามีการวางแผน

ขณะนี้ ChatGPT อยู่ในการแสดงตัวอย่าง ซึ่งช่วยให้ OpenAI ค้นพบ “ความไม่ตรงแนว” ผ่านการใช้งานจริง

สันนิษฐานว่าอาจมีการใช้ลายน้ำใน ChatGPT เวอร์ชันสุดท้ายหรือเร็วกว่านั้น

Scott Aaronson เขียนเกี่ยวกับวิธีการทำงานของลายน้ำ:

“จนถึงตอนนี้โปรเจ็กต์หลักของฉันเป็นเครื่องมือสำหรับใส่ลายน้ำทางสถิติที่ผลลัพธ์ของโมเดลข้อความอย่าง GPT
โดยพื้นฐานแล้ว เมื่อใดก็ตามที่ GPT สร้างข้อความยาวๆ เราต้องการให้มีสัญญาณลับที่มองไม่เห็นในการเลือกคำ ซึ่งคุณสามารถใช้เพื่อพิสูจน์ในภายหลังว่า ใช่ ข้อความนี้มาจาก GPT”

Aaronson อธิบายเพิ่มเติมว่าลายน้ำของ ChatGPT ทำงานอย่างไร แต่ก่อนอื่น สิ่งสำคัญคือต้องเข้าใจแนวคิดของโทเค็น

Tokenization เป็นขั้นตอนที่เกิดขึ้นในการประมวลผลภาษาธรรมชาติ โดยเครื่องจะใช้คำในเอกสารและแบ่งคำเหล่านั้นออกเป็นหน่วยความหมาย เช่น คำและประโยค

Tokenization เปลี่ยนข้อความเป็นรูปแบบโครงสร้างที่สามารถใช้ในการเรียนรู้ของเครื่อง

กระบวนการสร้างข้อความคือเครื่องเดาว่าโทเค็นใดจะมาเป็นลำดับถัดไปโดยอิงจากโทเค็นก่อนหน้า

สิ่งนี้ทำได้โดยใช้ฟังก์ชันทางคณิตศาสตร์ที่กำหนดความน่าจะเป็นของโทเค็นถัดไป ซึ่งเรียกว่าการแจกแจงความน่าจะเป็น

คำถัดไปเป็นคำทำนาย แต่เป็นการสุ่ม

ลายน้ำเป็นสิ่งที่ Aaron อธิบายว่าเป็น pseudorandom ซึ่งมีเหตุผลทางคณิตศาสตร์สำหรับคำหรือเครื่องหมายวรรคตอนหนึ่งๆ ที่จะอยู่ที่นั่น แต่ก็ยังเป็นแบบสุ่มทางสถิติ

นี่คือคำอธิบายทางเทคนิคของลายน้ำ GPT:

“สำหรับ GPT ทุกอินพุตและเอาต์พุตเป็นสตริงของโทเค็น ซึ่งอาจเป็นคำแต่รวมถึงเครื่องหมายวรรคตอน ส่วนของคำ หรือมากกว่านั้น—มีโทเค็นทั้งหมดประมาณ 100,000 รายการ
โดยพื้นฐานแล้ว GPT จะสร้างการกระจายความน่าจะเป็นบนโทเค็นถัดไปอย่างต่อเนื่องเพื่อสร้างโดยมีเงื่อนไขในสตริงของโทเค็นก่อนหน้า
หลังจากที่เครือข่ายนิวรัลสร้างการแจกแจงแล้ว เซิร์ฟเวอร์ OpenAI จะสุ่มตัวอย่างโทเค็นตามการแจกแจงนั้น หรือรุ่นที่มีการดัดแปลงของการแจกแจง ทั้งนี้ขึ้นอยู่กับพารามิเตอร์ที่เรียกว่า 'อุณหภูมิ'
ตราบใดที่อุณหภูมิไม่เป็นศูนย์ มักจะมีการสุ่มเลือกโทเค็นถัดไป: คุณสามารถเรียกใช้ซ้ำแล้วซ้ำอีกด้วยพรอมต์เดียวกัน และได้รับความสมบูรณ์ที่แตกต่างกัน (เช่น สตริงของโทเค็นเอาต์พุต) ในแต่ละครั้ง .
ดังนั้นหากต้องการลายน้ำ แทนที่จะเลือกโทเค็นถัดไปแบบสุ่ม แนวคิดก็คือการเลือกโทเค็นปลอมโดยใช้ฟังก์ชันสุ่มเทียมแบบเข้ารหัส ซึ่งคีย์นี้เป็นที่รู้จักใน OpenAI เท่านั้น”

ลายน้ำดูเป็นธรรมชาติอย่างสมบูรณ์สำหรับผู้ที่อ่านข้อความ เนื่องจากการเลือกคำเป็นการเลียนแบบการสุ่มของคำอื่นๆ ทั้งหมด

นี่คือคำอธิบายทางเทคนิค:

“เพื่อแสดงให้เห็น ในกรณีพิเศษที่ GPT มีโทเค็นที่เป็นไปได้จำนวนมากซึ่งตัดสินว่าน่าจะพอๆ กัน คุณสามารถเลือกโทเค็นใดก็ได้ที่เพิ่ม g ตัวเลือกจะดูสุ่มเหมือนกันสำหรับคนที่ไม่รู้จักคีย์ แต่คนที่รู้คีย์สามารถรวม g ต่อ n-กรัมได้ในภายหลังและเห็นว่ามันมีขนาดใหญ่ผิดปกติ”

การใส่ลายน้ำเป็นวิธีแก้ปัญหาความเป็นส่วนตัวเป็นอันดับแรก

ฉันเคยเห็นการอภิปรายบนโซเชียลมีเดียที่มีบางคนแนะนำว่า OpenAI สามารถเก็บบันทึกทุกผลลัพธ์ที่สร้างขึ้นและใช้สิ่งนั้นเพื่อตรวจจับ

Scott Aaronson ยืนยันว่า OpenAI สามารถทำได้ แต่การทำเช่นนั้นก่อให้เกิดปัญหาความเป็นส่วนตัว ข้อยกเว้นที่เป็นไปได้คือสถานการณ์การบังคับใช้กฎหมาย ซึ่งเขาไม่ได้อธิบายอย่างละเอียด

วิธีตรวจหาลายน้ำ ChatGPT หรือ GPT

สิ่งที่น่าสนใจที่ดูเหมือนจะยังไม่เป็นที่รู้จักกันดีคือ Scott Aaronson สังเกตว่ามีวิธีที่จะเอาชนะลายน้ำได้

เขาไม่ได้บอกว่า สามารถ เอาชนะลายน้ำได้ แต่เขาบอกว่า สามารถ เอาชนะได้

“เอาล่ะ ทั้งหมดนี้สามารถเอาชนะได้ด้วยความพยายามที่เพียงพอ
ตัวอย่างเช่น หากคุณใช้ AI อื่นในการถอดความเอาต์พุตของ GPT ไม่เป็นไร เราจะไม่สามารถตรวจจับสิ่งนั้นได้”

ดูเหมือนว่าลายน้ำสามารถเอาชนะได้ อย่างน้อยก็ตั้งแต่เดือนพฤศจิกายนที่มีการสร้างข้อความข้างต้น

ไม่มีข้อบ่งชี้ว่ากำลังใช้ลายน้ำอยู่ แต่เมื่อถูกใช้งานก็ไม่อาจทราบได้หากช่องโหว่นี้ถูกปิด

การอ้างอิง

อ่านบล็อกโพสต์ของ Scott Aaronson ที่นี่

ลายน้ำ ChatGPT ทำงานอย่างไร และเหตุใดจึงอาจถูกกำจัดได้