OpenAI, Büyük Modellerin Kötü Amaçlı Davranışlarını Durdurmak için CoT İzlemeyi Yayınladı

Abstract generation in progress

Golden Finance, OpenAI'nin CoT (düşünce zinciri) izlemeyi kullanarak en son araştırmayı yayınladığını, büyük modellerin saçma sapan konuşması ve gerçek niyetleri gizlemesi gibi kötü niyetli davranışları önleyebileceğini ve aynı zamanda süper modelleri denetlemek için etkili araçlardan biri olduğunu bildirdi. OpenAI, izlenen nesne olarak yeni piyasaya sürülen son teknoloji model o3-mini'yi ve monitör olarak daha zayıf GPT-4o modelini kullanır. Test ortamı, yapay zekanın birim testlerini geçmek için kod tabanında işlevsellik uygulamasını gerektiren bir kodlama görevidir. Sonuçlar, CoT monitörünün, yalnızca izlenen davranışların %60'ını çok aşan, %95'e varan bir hatırlama oranıyla sistematik "ödül korsanlığı" davranışını tespit etmede iyi performans gösterdiğini gösterdi.

O33.56%

GPT-32.12%

View Original

The content is for reference only, not a solicitation or offer. No investment, tax, or legal advice provided. See Disclaimer for more risks disclosure.

Reward
like
Comment
Share

Comment

0/400

No comments

Topic
#BTC#
192k posts
#ETH#
120k posts
#PI#
93k posts
4#GateioInto11#
76k posts
5#ContentStar#
64k posts
6#BOME#
59k posts
7#GT#
56k posts
8#DOGE#
53k posts
9#MAGA#
52k posts
10#SLERF#
51k posts

sitemap