ในโลกของ Deep Learning มี concept หนึ่งที่ปฏิวัติวงการ — Attention Mechanism ที่ถูกเสนอใน paper ชื่อ "Attention is All You Need" (Vaswani et al., 2017)
หลักการคือ: ระบบจะให้ "ความสนใจ" (attention weight) กับข้อมูลแต่ละส่วนไม่เท่ากัน — ชั่งน้ำหนักว่าส่วนไหนสำคัญกว่ากัน แล้วนำมาประกอบกันเป็น output
ถ้าเปรียบ: เวลาคุณอ่านหนังสือ คุณไม่ได้ให้ความสำคัญทุกตัวอักษรเท่ากัน — คุณ focus ที่คำสำคัญ ประโยคหลัก ความหมายโดยรวม
Transformer ทำแบบนี้ — มันคำนวณ Query, Key, Value:
• Query (Q) = สิ่งที่กำลังมองหา
• Key (K) = ป้ายของข้อมูลแต่ละตัว
• Value (V) = เนื้อหาจริงของข้อมูลนั้น
แล้วคำนวณความคล้ายระหว่าง Q กับ K ด้วย dot product / cosine similarity — ได้น้ำหนัก attention — แล้วถ่วงน้ำหนัก Value ตามนั้น