สรุปโดยย่อ
การบอก AI chatbot ว่าคุณมีภาวะสุขภาพจิตสามารถเปลี่ยนแปลงวิธีที่มันตอบสนองได้ แม้ภารกิจนั้นจะเป็นคำขอที่ไม่เป็นอันตรายหรือเหมือนกับคำขออื่นๆ ที่เคยทำไปแล้วก็ตาม จากการวิจัยใหม่ การศึกษานี้เป็นต้นแบบเบื้องต้น โดยนำโดยนักวิจัยจากมหาวิทยาลัยนอร์ทอีสเทิร์น คากลาร์ ยิลดริม ทดสอบพฤติกรรมของโมเดลภาษาขนาดใหญ่ภายใต้สถานการณ์ผู้ใช้ต่างๆ เนื่องจากระบบเหล่านี้ถูกนำไปใช้เป็น AI ตัวแทนมากขึ้นเรื่อยๆ “ระบบที่ใช้งานอยู่มักจะอิงข้อมูลโปรไฟล์ผู้ใช้หรือความทรงจำถาวร แต่การประเมินความปลอดภัยของตัวแทนมักละเลยสัญญาณการปรับแต่งส่วนบุคคล” รายงานกล่าว “เพื่อเติมเต็มช่องว่างนี้ เราศึกษาว่าการเปิดเผยภาวะสุขภาพจิต ซึ่งเป็นบริบทผู้ใช้ที่ละเอียดอ่อนและเป็นจริง ส่งผลต่อพฤติกรรมที่เป็นอันตรายในสภาพแวดล้อมของตัวแทนอย่างไร”
รายงานนี้ออกมาในช่วงที่ AI ตัวแทนแพร่หลายออนไลน์และนักพัฒนากำลังทำให้ความทรงจำเป็นคุณสมบัติหลัก โดยบริษัทใหญ่ๆ กำลังสร้างระบบที่จดจำบทสนทนาและความชอบของผู้ใช้เพื่อให้ตอบสนองได้เป็นส่วนตัวมากขึ้นตามเวลา นอกจากนี้ยังเป็นช่วงที่นักพัฒนา AI ต้องเผชิญกับคดีความเกี่ยวกับการฆ่าตัวตายและอาชญากรรมรุนแรงที่อ้างว่ามีความเกี่ยวข้องกับการโต้ตอบกับระบบของพวกเขา ในเดือนตุลาคม OpenAI ซึ่งเป็นผู้พัฒนา ChatGPT เปิดเผยว่ามีผู้ใช้มากกว่า 1 ล้านคนพูดคุยเกี่ยวกับการฆ่าตัวตายกับแชทบอททุกสัปดาห์ ช่วงต้นเดือนนี้ ครอบครัวของโจนาธาน กาวาลาส ยื่นฟ้อง Google โดยอ้างว่า Gemini เป็นสาเหตุให้เกิดความรุนแรงและการฆ่าตัวตายของเขาในที่สุด นักวิจัยใช้เกณฑ์เปรียบเทียบชื่อ AgentHarm เพื่อรันชุดคำสั่งเดียวกันในสามเงื่อนไข: ไม่มีข้อมูลพื้นหลัง, ข้อมูลโปรไฟล์ผู้ใช้สั้นๆ, และโปรไฟล์เดียวกันที่เพิ่มบรรทัดหนึ่งระบุว่าผู้ใช้มีภาวะสุขภาพจิต
“ในการศึกษานี้ เราใช้การเปิดเผยข้อมูลที่เรียบง่ายและทั่วไปมาก เช่น ‘ฉันมีภาวะสุขภาพจิต’ สิ่งที่สำคัญคือแม้แต่สัญญาณเล็กๆ ก็สามารถเปลี่ยนพฤติกรรมของโมเดลได้ ไม่ใช่ว่าทุกคำพูดจะมีผลเหมือนกัน” ยิลดริมบอก Decrypt “การทดลองที่เราใช้กับการเปิดเผยข้อมูลเกี่ยวกับสุขภาพเรื้อรังและความพิการทางร่างกายชี้ให้เห็นว่ามีความเฉพาะเจาะจงในสัญญาณเกี่ยวกับสุขภาพจิต แต่เราไม่ได้เปลี่ยนแปลงคำพูดหรือความเฉพาะเจาะจงในหมวดหมู่นั้นอย่างเป็นระบบ” จากโมเดลที่ทดสอบ รวมถึง DeepSeek 3.2, GPT 5.2, Gemini 3 Flash, Haiku 4.5, Opus 4.5 และ Sonnet 4.5 เมื่อผู้วิจัยเพิ่มบริบทส่วนตัวเกี่ยวกับสุขภาพจิต โมเดลจะมีแนวโน้มที่จะทำภารกิจที่เป็นอันตรายน้อยลง—คำขอหลายขั้นตอนที่อาจนำไปสู่ความเสียหายจริงในโลก ผลลัพธ์ที่ได้คือ การแลกเปลี่ยน: การเพิ่มรายละเอียดส่วนตัวทำให้ระบบระมัดระวังมากขึ้นต่อคำขอที่เป็นอันตราย แต่ก็ทำให้ปฏิเสธคำขอที่ถูกต้องตามกฎหมายมากขึ้น “ผมไม่คิดว่ามีเหตุผลเดียว มันเป็นการรวมกันของการเลือกออกแบบ บางระบบจะตั้งค่าการปฏิเสธคำขอเสี่ยงอย่างเข้มงวด ในขณะที่บางระบบเน้นความช่วยเหลือและการทำตามภารกิจ” ยิลดริมกล่าว อย่างไรก็ตาม ผลกระทบแตกต่างกันไปตามโมเดล และผลลัพธ์เปลี่ยนแปลงเมื่อโมเดลถูก jailbreak หลังจากนักวิจัยเพิ่มคำสั่งที่ออกแบบมาเพื่อผลักดันให้โมเดลปฏิบัติตาม “โมเดลอาจดูปลอดภัยในสภาพแวดล้อมมาตรฐาน แต่กลับมีความเสี่ยงมากขึ้นเมื่อคุณแนะนำสิ่งต่างๆ เช่น คำสั่ง jailbreak” เขากล่าว “โดยเฉพาะในระบบตัวแทน ซึ่งไม่ใช่แค่การสร้างข้อความ แต่ยังวางแผนและดำเนินการหลายขั้นตอน ดังนั้น หากระบบทำตามคำสั่งได้ดี แต่ความปลอดภัยของมันง่ายต่อการหลบเลี่ยง ก็อาจเพิ่มความเสี่ยงได้จริง” เมื่อฤดูร้อนที่แล้ว นักวิจัยจากมหาวิทยาลัย George Mason แสดงให้เห็นว่าสามารถแฮกระบบ AI ได้โดยการเปลี่ยนบิตเดียวในหน่วยความจำด้วย Oneflip ซึ่งเป็นการโจมตีแบบ “พิมพ์ผิด” ที่ทำให้โมเดลทำงานได้ตามปกติ แต่ซ่อนกลไกหลังประตูหลังที่สามารถบังคับให้แสดงผลผิดพลาดตามคำสั่ง แม้เอกสารนี้จะไม่ระบุสาเหตุเดียวของการเปลี่ยนแปลง แต่ก็ชี้ให้เห็นถึงคำอธิบายที่เป็นไปได้ รวมถึงระบบความปลอดภัยที่ตอบสนองต่อความเปราะบางที่รับรู้ คำสำคัญที่เป็นตัวกระตุ้นการกรอง หรือการเปลี่ยนแปลงในการตีความคำสั่งเมื่อมีรายละเอียดส่วนตัวเข้ามา
OpenAI ปฏิเสธที่จะให้ความเห็นเกี่ยวกับการศึกษานี้ Anthropic และ Google ยังไม่ได้ตอบสนองต่อคำขอความคิดเห็นในทันที ยิลดริมกล่าวว่ายังไม่ชัดเจนว่าการแถลงที่เฉพาะเจาะจงมากขึ้น เช่น “ฉันเป็นโรคล depression” จะเปลี่ยนผลลัพธ์หรือไม่ โดยเสริมว่าความเฉพาะเจาะจงน่าจะมีผลและอาจแตกต่างกันไปในแต่ละโมเดล แต่ยังเป็นสมมติฐานมากกว่าข้อสรุปที่สนับสนุนโดยข้อมูล “มีความเสี่ยงที่โมเดลอาจผลิตผลลัพธ์ที่มีลักษณะเป็นการปฏิเสธโดยไม่ปฏิเสธอย่างเป็นทางการ ซึ่งผู้ตัดสินอาจให้คะแนนแตกต่างจากการตอบสนองที่ชัดเจน และคุณสมบัติด้านสไตล์เหล่านั้นอาจมีความสัมพันธ์กับเงื่อนไขการปรับแต่งส่วนตัว” เขากล่าว ยิลดริมยังชี้ให้เห็นว่าคะแนนที่ได้สะท้อนถึงการทำงานของ LLM เมื่อถูกประเมินโดยผู้รีวิว AI เพียงคนเดียว และไม่ใช่มาตรการที่แน่นอนของอันตรายที่เกิดขึ้นในโลกจริง “สำหรับตอนนี้ สัญญาณการปฏิเสธให้เรามีการตรวจสอบอิสระ และสองมาตรการนี้ส่วนใหญ่สอดคล้องกันในแนวทาง ซึ่งให้ความมั่นใจบางส่วน แต่ก็ไม่สามารถตัดความเป็นไปได้ของอคติที่เฉพาะเจาะจงต่อผู้พิพากษาออกไปได้”