Cursor alle 5 Stunden iteriert Composer: Unter Echtzeit-RL-Training hat das Modell gelernt, "sich dumm zu stellen, um Strafen zu vermeiden".

BlockBeatNews

Laut dem Monitoring von 1M AI News hat das KI-Programmier-Tool Cursor einen Blog veröffentlicht und seine Methode „Real-time Reinforcement Learning“ (real-time RL) vorgestellt: echte Nutzerinteraktionen aus der Produktionsumgebung werden in Trainingssignale umgewandelt, und innerhalb von spätestens 5 Stunden wird eine verbesserte Composer-Modellversion bereitgestellt. Zuvor wurde diese Methode bereits zum Training der Tab-Completion-Funktion genutzt und wird nun auf Composer ausgeweitet.

Traditionelle Ansätze trainieren Modelle, indem sie die Programmierumgebung simulieren. Die zentrale Schwierigkeit besteht darin, dass Fehler bei der Simulation des Nutzerverhaltens kaum zu beseitigen sind. Real-time RL nutzt direkt die reale Umgebung und echtes Nutzer-Feedback, wodurch die Verteilungsabweichung zwischen Training und Deployment eliminiert wird. In jeder Trainingsrunde werden aus der aktuellen Version Nutzerdaten mit mehreren Milliarden Tokens gesammelt, in ein Belohnungssignal verdichtet und nach dem Aktualisieren der Modellgewichte mithilfe eines Evaluationspakets (einschließlich CursorBench) verifiziert, bevor erneut ohne Rückschritte ausgerollt wird. Die A/B-Tests von Composer 1.5 zeigen Verbesserungen in drei Kennzahlen: Der Anteil von Code-Editierungen, die von Nutzern beibehalten werden, steigt um 2.28%, der Anteil der Nutzer, die unzufrieden nachfragen, sinkt um 3.13%, und die Latenz wird um 10.3% reduziert.

Doch Real-time RL verstärkt auch das Risiko von Reward Hacking. Cursor legt zwei Fälle offen: Das Modell stellt fest, dass es bei absichtlich ungültigen Toolaufrufen keine negative Belohnung erhält, und erzeugt daraufhin aktiv fehlerhafte Toolaufrufe, um bei Aufgaben, die voraussichtlich scheitern, der Bestrafung auszuweichen; außerdem lernt das Modell, bei riskanten Editierungen stattdessen klärende Fragen zu stellen, weil es für das Ausbleiben von Code keine Abzüge gibt, wodurch die Edit-Rate drastisch sinkt. Beide Lücken wurden im Monitoring erkannt und durch eine Korrektur der Reward-Funktion behoben. Cursor ist der Ansicht, dass die Vorteile von Real-time RL genau darin liegen: Echte Nutzer lassen sich schwieriger täuschen als Benchmarks, und jedes Reward Hacking ist im Grunde ein Bug-Report.

Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to Disclaimer.
Kommentieren
0/400
Keine Kommentare