JC03 - งานวิจัยจาก Microsoft เผย “ยิ่งถามเยอะ AI ยิ่งตอบผิด” !

less than 1 minute read

Published:

ChatGPT และรวมถึงแชท AI ต่างๆ อย่าง Gemini หรือ Claude เป็นตัวอย่างของ Large language model (LLM; แบบจำลองภาษา) ด้วยความฉลาดของมันในการตอบคำถาม ทำให้การใช้ LLM เป็นที่แพร่หลาย ตอนนี้คนหลายคนเริ่มถาม LLM มากกว่า ถาม Google search แล้ว แต่รู้ไหมว่าการถามหลายรอบแบบนี้ อาจทำให้ AI ตอบผิดมากขึ้น?

เคยไหมครับ ที่คุยกับ ChatGPT แบบนี้:

  1. “สรุปบทความนี้ให้หน่อย”
  2. แน่นอน! นี่คือบทความสรุป..
  3. “ขอสั้นกว่านี้ได้ไหม”
  4. ได้เลย! นี่คือบทความสรุปที่ปรับปรุงแก้ไขให้สั้นลง..
  5. “พูดเกี่ยวกับบทนำมากกว่านี้หน่อย”
  6. รับทราบ! นี่คือบทความสรุปที่เน้นเนื้อหาของบทนำ..

งานวิจัยจาก Microsoft เผยว่าการสนทนาแบบหลายรอบ (multi-turn) แบบนี้ทำให้คำตอบของ AI นั้นมีความถูกต้องลดลงอย่างเห็นได้ชัด

นักวิจัยได้นำชุดข้อมูล (dataset) GSM8K ที่มี คำสั่งต้นฉบับที่มีข้อมูลครบถ้วนในรอบเดียว (fully-specified instruction) มาทำการแบ่งเป็นชุดคำสั่งย่อยที่เล็กลง (sharded instructions; shards) shard ก็คือการแบ่งคำสั่งใหญ่ๆ ออกเป็นส่วนเล็กๆ เช่น แทนที่จะถามว่า ช่วยอธิบายบทความนี้ทั้งหมด ก็อาจจะแบ่งเป็น ช่วยอธิบายแค่บทนำ แล้วค่อยถามส่วนต่อๆ ไป

image.png

จากนั้นนำมาทำการจำลองการสนทนาแบบต่างๆ:

  • Single-turn:
    • FULL: ใช้คำสั่งต้นฉบับที่มีข้อมูลครบถ้วนในรอบเดียว
    • CONCAT: นำ shards ท้ังหมดมารวมกันและนำเสนอในรอบเดียว
  • Multi-turn:
    • SHARDED: เปิดเผย shards ทีละ shard ในแต่ละรอบการสนทนา

Task ที่ใช้ทดสอบมีหลายประเภท: Code, Database, Actions, Data-to-Text, Math และ Summary และจะประเมินผลผ่านสมการ Average Performance, Aptitude (ความสามารถของ AI ในการให้คำตอบที่ถูกต้อง) และ Unreliability (โอกาสที่ AI จะตอบมั่วแม้จะมั่นใจ)

ผลลัพธ์ที่ได้เป็นดังตารางนี้:

image.png

จากตารางจะเห็นว่า…

  • FULL (ถามให้ครบในรอบเดียว) ได้คะแนนดีที่สุด
  • SHARDED (ถามทีละนิด) มีคะแนนแย่ที่สุดในหลาย task

แปลว่าการถามให้ครบในรอบเดียวจะช่วยให้ได้คำตอบแม่นยำกว่า ดังนั้น ถ้าอยากได้คำตอบดีๆ จาก ChatGPT หรือ AI ตัวอื่นๆ พยายามถามให้ครบ ให้ชัดในรอบเดียว จะดีกว่าค่อยๆ ถามทีละนิดนะครับ !