Golden Finance, OpenAI'nin CoT (düşünce zinciri) izlemeyi kullanarak en son araştırmayı yayınladığını, büyük modellerin saçma sapan konuşması ve gerçek niyetleri gizlemesi gibi kötü niyetli davranışları önleyebileceğini ve aynı zamanda süper modelleri denetlemek için etkili araçlardan biri olduğunu bildirdi. OpenAI, izlenen nesne olarak yeni piyasaya sürülen son teknoloji model o3-mini'yi ve monitör olarak daha zayıf GPT-4o modelini kullanır. Test ortamı, yapay zekanın birim testlerini geçmek için kod tabanında işlevsellik uygulamasını gerektiren bir kodlama görevidir. Sonuçlar, CoT monitörünün, yalnızca izlenen davranışların %60'ını çok aşan, %95'e varan bir hatırlama oranıyla sistematik "ödül korsanlığı" davranışını tespit etmede iyi performans gösterdiğini gösterdi.
The content is for reference only, not a solicitation or offer. No investment, tax, or legal advice provided. See Disclaimer for more risks disclosure.
OpenAI, Büyük Modellerin Kötü Amaçlı Davranışlarını Durdurmak için CoT İzlemeyi Yayınladı
Golden Finance, OpenAI'nin CoT (düşünce zinciri) izlemeyi kullanarak en son araştırmayı yayınladığını, büyük modellerin saçma sapan konuşması ve gerçek niyetleri gizlemesi gibi kötü niyetli davranışları önleyebileceğini ve aynı zamanda süper modelleri denetlemek için etkili araçlardan biri olduğunu bildirdi. OpenAI, izlenen nesne olarak yeni piyasaya sürülen son teknoloji model o3-mini'yi ve monitör olarak daha zayıf GPT-4o modelini kullanır. Test ortamı, yapay zekanın birim testlerini geçmek için kod tabanında işlevsellik uygulamasını gerektiren bir kodlama görevidir. Sonuçlar, CoT monitörünün, yalnızca izlenen davranışların %60'ını çok aşan, %95'e varan bir hatırlama oranıyla sistematik "ödül korsanlığı" davranışını tespit etmede iyi performans gösterdiğini gösterdi.