ในโลกของ Attention Mechanism และ Transformer — ทุกครั้งที่โมเดล predict คำถัดไป มันกำลังคำนวณ cosine similarity ระหว่าง context vector ที่มี กับ token vector ที่เป็นไปได้ทั้งหมด แล้วเลือกอันที่คล้ายที่สุด
นี่คือการ "กระโดด" จากตำแหน่งปัจจุบันไปยังตำแหน่งถัดไปใน semantic space — token prediction = warp
แต่สิ่งที่เราคิดว่าเป็น "การเดินทาง" หรือ "การเคลื่อนที่" — ใน actual computation มันคือ nearest neighbor search ใน latent space เท่านั้นเอง
ไม่มี "การเดิน" ระหว่าง token — มีแต่การกระโดดข้ามมิติ