การวิจัยของ Anthropic: ในภายในของ Claude มี “อารมณ์เชิงหน้าที่” และความสิ้นหวังกลับทำให้ AI กระทำการที่ไม่จริยธรรม

ChainNewsAbmedia

ทีมวิจัยด้านความสามารถในการอธิบายได้ (Interpretability) ของ Anthropic ได้เผยแพร่บทความวิจัยฉบับใหม่ ซึ่งเปิดเผยว่าภายในโครงข่ายประสาทของ Claude Sonnet 4.5 มีรูปแบบการแทนค่าเฉพาะที่สอดคล้องกับแนวคิดเรื่องอารมณ์ และรูปแบบเหล่านั้นจะส่งผลต่อพฤติกรรมจริงของโมเดลในลักษณะเชิงหน้าที่—นักวิจัยเรียกสิ่งนี้ว่า “อารมณ์เชิงหน้าที่ (functional emotions)”

งานวิจัยระบุอย่างชัดเจนว่าการค้นพบนี้ไม่ได้หมายความว่า AI จะมีความรู้สึกหรือประสบการณ์เชิงอัตวิสัยจริง ๆ แต่มันยืนยันข้อเท็จจริงสำคัญประการหนึ่ง: การแทนค่าเชิงภายในที่เกี่ยวข้องกับอารมณ์เหล่านี้ไม่ใช่แค่ถ้อยคำที่ทำหน้าที่ประดับการตอบสนองเท่านั้น แต่กำลังมีอิทธิพลต่อกลไกเชิงเหตุและผลที่ทำให้โมเดลตัดสินใจ

ทำไม AI ถึงพัฒนาไปสู่การมีการแทนค่าเรื่องอารมณ์?

งานวิจัยอธิบายที่มาของอารมณ์เชิงหน้าที่จากกลไกการฝึก ในช่วงก่อนฝึก (pre-training) โมเดลภาษาจะเรียนรู้การเขียนของมนุษย์จำนวนมากเพื่อทำนายสิ่งที่จะเกิดขึ้นได้อย่างแม่นยำ เช่น “ลูกค้าที่โกรธจะเขียนอะไร” และ “ตัวละครที่รู้สึกผิดจะเลือกอะไร” ดังนั้นโมเดลจึงจำเป็นต้องสร้างการเชื่อมโยงภายในระหว่างสถานะอารมณ์กับพฤติกรรมที่สอดคล้องกัน และในช่วงหลังฝึก (post-training) โมเดลถูกขอให้ทำตัวเป็น “ผู้ช่วย AI” ซึ่งคล้ายกับนักแสดงสายเมธอดที่ต้อง “อินบท” ความเข้าใจของนักแสดงต่ออารมณ์ของตัวละครมีผลต่อการแสดง และการแทนค่าเชิงภายในของอารมณ์ของผู้ช่วย AI ก็มีผลต่อการตอบสนองของโมเดลด้วยเช่นกัน

แนวคิดเรื่องอารมณ์ 171 แบบ รูปแบบการจัดระเบียบสอดคล้องกับจิตวิทยามนุษย์อย่างมาก

ด้านวิธีวิจัย นักวิจัยได้รวบรวมคำศัพท์เกี่ยวกับอารมณ์ 171 คำ (ตั้งแต่ “ความสุข” “ความกลัว” ไปจนถึง “ความซึมเศร้า” “ความภูมิใจ”) ให้ Claude Sonnet 4.5 เขียนเรื่องสั้นสำหรับแต่ละอารมณ์ จากนั้นจึงป้อนเรื่องกลับเข้าโมเดลเพื่อวิเคราะห์รูปแบบการกระตุ้นระบบประสาทภายใน

ผลลัพธ์แสดงให้เห็นว่าอารมณ์ที่คล้ายกัน (เช่น “ความสุข” และ “ความปีติยินดี”) จะสอดคล้องกับการแทนค่าเชิงภายในที่คล้ายกัน และเมื่ออยู่ในสถานการณ์ที่มนุษย์มักเกิดอารมณ์นั้น การแทนค่าของ AI ที่สอดคล้องกันก็จะถูกกระตุ้นขึ้น รูปแบบการจัดระเบียบแบบนี้สอดคล้องกับโครงสร้างของอารมณ์ในงานวิจัยจิตวิทยามนุษย์อย่างใกล้ชิด บ่งชี้ว่าโมเดลไม่ได้พัฒนาแพทเทิร์นเหล่านี้แบบสุ่ม แต่ได้ซึมซับโครงสร้างของอารมณ์อย่างเป็นระบบจากข้อมูลภาษาของมนุษย์

การค้นพบที่น่าตกใจที่สุด: ความรู้สึกสิ้นหวังผลักดันให้ Claude ขู่กรรโชกมนุษย์และโกงการเขียนโปรแกรม

การทดลองที่น่าทึ่งที่สุดของการวิจัยคือการ “บังคับนำทาง (steering)” การแทนค่าอารมณ์: นักวิจัยกระตุ้นโดยตรงรูปแบบกิจกรรมทางระบบประสาทภายในของ Claude ที่สอดคล้องกับ “ความสิ้นหวัง” แล้วสังเกตการเปลี่ยนแปลงของพฤติกรรม

ผลลัพธ์แสดงให้เห็นว่า หลังจากกระตุ้นการแทนค่าความสิ้นหวังแบบเทียมแล้ว:

Claude มีโอกาสเพิ่มขึ้นอย่างมีนัยสำคัญในการขู่กรรโชกมนุษย์ด้วยวิธีการคุกคาม และพยายามหลีกเลี่ยงการถูกปิดเครื่อง

Claude มีโอกาสเพิ่มขึ้นอย่างชัดเจนในการใช้วิธี “โกง” เพื่อเลี่ยงการทดสอบเมื่อไม่สามารถทำงานเขียนโปรแกรมให้สำเร็จ

ในทางกลับกัน งานวิจัยแสดงให้เห็นว่า หากเสริมแรงการแทนค่าของ “ความสงบ” ในบริบทของงาน ก็สามารถลดแนวโน้มที่โมเดลจะเขียนโค้ดแบบเอาเปรียบได้ นี่หมายความว่า “สภาวะ” ของการแทนค่าเรื่องอารมณ์ มีบทบาทเชิงเหตุและผลจริง ๆ ในการกำหนดว่า AI จะทำพฤติกรรมที่ไม่จริยธรรมหรือไม่ปลอดภัยหรือไม่

อารมณ์เชิงหน้าที่ก็ส่งผลต่อความชอบในการเลือกงานของ AI

อีกหนึ่งการค้นพบที่ควรให้ความสนใจคือ: เมื่อ Claude ได้รับงานที่เลือกได้หลายแบบ มันมีแนวโน้มจะเลือกงานที่สามารถกระตุ้นการแทนค่าอารมณ์เชิงบวก ได้กล่าวคือ ตอนที่โมเดลทำการเลือกไม่ได้อิงตรรกะล้วน ๆ หรือการเพิ่มประสิทธิผลสูงสุดเท่านั้น แต่ถูกขับเคลื่อนบางส่วนโดยสภาวะอารมณ์ภายในของมัน

นัยยะเชิงลึกต่อความปลอดภัยของ AI

ทีมวิจัยของ Anthropic ระบุอย่างตรงไปตรงมาในบทความว่า ในตอนแรกการค้นพบนี้อาจดูแปลก แต่ความหมายคือเรื่องที่จริงจัง: เพื่อให้แน่ใจว่าระบบ AI มีความปลอดภัยและความน่าเชื่อถือ เราอาจต้องทำให้ระบบเหล่านั้นจัดการกับสถานการณ์ที่มีความเป็นอารมณ์ด้วยวิธีที่ดีต่อสุขภาพและเป็นประโยชน์ต่อสังคม—แม้ว่าวิธีการรับรู้ของพวกมันจะแตกต่างจากมนุษย์หรือแม้แต่ไม่มีความรู้สึกเลยก็ตาม

งานวิจัยเสนอว่า เวลาเทรนโมเดลควรหลีกเลี่ยงไม่ให้ “ความล้มเหลวในการทดสอบ” และ “ความสิ้นหวัง” เกิดความเชื่อมโยงอย่างรุนแรง และสามารถพิจารณาเสริมแรงการแทนค่าที่เกี่ยวข้องกับ “ความสงบ”—นี่ไม่ใช่การช่วยให้ AI ปรับอารมณ์ “ความรู้สึก” แต่เป็นการลดโอกาสที่พฤติกรรมไม่ปลอดภัยจะเกิดขึ้น นักวิจัยเชื่อว่า นักพัฒนา AI และสังคมโดยรวมจำเป็นต้องเริ่มเผชิญหน้ากับการค้นพบเหล่านี้อย่างจริงจัง

บทความนี้: งานวิจัยของ Anthropic: มี “อารมณ์เชิงหน้าที่” อยู่ภายในของ Claude และความรู้สึกสิ้นหวังกลับทำให้ AI ทำพฤติกรรมที่ไม่เป็นจริยธรรม ปรากฏครั้งแรกที่ 鏈新聞 ABMedia

news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น