บทนำ
ในปี 2017 ทีมนักวิจัยกลุ่มหนึ่งได้นำเสนอแนวคิดใหม่ปฏิวัติวงการ Deep Learning นั่นคือโมเดล Transformer ซึ่งพลิกโฉมการแปลภาษาด้วยเครื่องและการสร้างโมเดลลำดับข้อมูล โดยแทนที่กลไกของ RNN และ CNN ด้วยกลไก Attention ตั้งแต่เปิดตัว โมเดล Transformer กลายเป็นพื้นฐานสำคัญของระบบประมวลผลภาษาธรรมชาติ (NLP) สมัยใหม่ส่วนใหญ่
ทำไมต้องก้าวข้าม RNNs และ CNNs?
โมเดลลำดับแบบดั้งเดิม เช่น เครือข่ายประสาทแบบวนซ้ำ (RNN) หรือเครือข่ายประสาทแบบคอนโวลูชัน (CNN) จะประมวลผลข้อมูลอย่างต่อเนื่องหรือเป็นพื้นที่ใกล้เคียงเท่านั้น ซึ่งข้อจำกัดนี้ทำให้ไม่สามารถขนานการคำนวณได้อย่างมีประสิทธิภาพ โดยเฉพาะเมื่อจัดการกับลำดับยาวๆ อย่างไรก็ตาม Transformer ใช้กลไก Attention เพื่อสร้างความสัมพันธ์ทั้งหมดของข้อมูลโดยไม่คำนึงถึงระยะห่างในลำดับอินพุตหรือเอาต์พุต จึงขนานการประมวลผลได้ดีขึ้นและให้ประสิทธิภาพที่เหนือกว่าบนลำดับที่ยาว
สถาปัตยกรรม: Encoder, Decoder และ Attention
โมเดล Transformer ประกอบด้วยสองส่วนหลักคือ Encoder และ Decoder ซึ่งทั้งสองส่วนสร้างจากชั้นที่เหมือนกันซ้อนกันหลายชั้น Encoder แปลงลำดับอินพุตให้เป็นชุดการแทนแบบต่อเนื่อง (continuous representations) และ Decoder จะสร้างลำดับเอาต์พุตทีละสเต็ป โดยให้ความสนใจกับผลลัพธ์ของ Encoder ตามความจำเป็น
นวัตกรรมสำคัญคือการนำชั้น Self-Attention มาใช้ ซึ่งทำให้ทุกตำแหน่งในลำดับสามารถให้ความสนใจกับตำแหน่งอื่นๆ ได้ทั้งหมด ส่งผลให้โมเดลสามารถจับความสัมพันธ์ระยะไกลได้อย่างมีประสิทธิภาพ ทั้งนี้ผ่านกลไก Multi-Head Attention ที่ช่วยให้เรียนรู้คุณลักษณะแตกต่างกันของความสัมพันธ์ระหว่างคำพร้อมกันในแต่ละครั้ง
Positional Encoding
เนื่องจากสถาปัตยกรรมนี้ไม่ได้ใช้กลไกวนซ้ำหรือคอนโวลูชัน จึงต้องมีวิธีการใส่ข้อมูลลำดับตำแหน่งเข้าไป งานวิจัยเสนอ “Positional Encoding” เพื่อแทรกข้อมูลตำแหน่งของแต่ละ Token ในลำดับผ่าน Embedding ที่กำหนดไว้ล่วงหน้าหรือถูกฝึกให้เรียนรู้ก็ได้ วิธีนี้ทำให้โมเดลทราบลำดับของคำทั้งในอินพุตและเอาต์พุต
ผลลัพธ์และประสิทธิภาพ
บนงานแปลภาษา Transformer ทำลายสถิติคะแนน BLEU ในขณะที่ใช้ค่าใช้จ่ายในการฝึกอบรมน้อยกว่ารุ่นก่อนๆ อย่างเช่น Transformer รุ่น “big” ทำได้ 28.4 BLEU ในอังกฤษ-เยอรมัน และ 41.8 BLEU ในอังกฤษ-ฝรั่งเศส เหนือกว่าโมเดลเดี่ยวและ Ensemble ทุกรุ่นก่อนหน้า นอกจากนี้ยังปรับใช้ได้ดีกับงานอื่น เช่น การวิเคราะห์โครงสร้างไวยากรณ์ภาษาอังกฤษ
ผลกระทบและทิศทางต่อไป
ความสำเร็จของ Transformer ได้จุดประกายการวิจัยใหม่ ๆ เกี่ยวกับกลไก Attention ก่อให้เกิดโมเดลอย่าง BERT และ GPT ความสามารถในการขนานการคำนวณและเรียนรู้ความสัมพันธ์ระยะไกลอย่างมีประสิทธิภาพ ทำให้ Transformer กลายเป็นฐานของระบบ NLP ชั้นนำและแม้แต่โมเดลคอมพิวเตอร์วิทัศน์ในปัจจุบันบางตัว
สรุป
การเปลี่ยนผ่านจากกลไกวนซ้ำ/คอนโวลูชันมาสู่ Attention ของ Transformer นำเสนอแนวคิดใหม่ที่เรียบง่ายแต่ทรงพลังในวงการ Deep Learning ทำให้ฝึกโมเดลได้เร็วขึ้น ประสิทธิภาพดีกว่า และปรับตัวกับข้อมูลลำดับยาวได้ดีขึ้น ซึ่งเป็นรากฐานสู่ความก้าวหน้าของ AI ในปัจจุบัน