作者:譚梓馨,頭部科技
圖片來源:由無界AI生成
大型語言模型 (LLM)正在改變軟件開發方式,AI現在能不能大規模替代人類程序員成為一個備受行業關注的話題。
在短短兩年時間裡,AI大模型已經從解決基礎計算機科學問題,發展到在國際編程競賽中與人類高手一較高下的程度,例如OpenAI o1曾在與人類參賽者相同的條件下參加2024國際信息學奧林匹克競賽(IOI)併成功獲得金牌,展現了強大的編程潛力。
同時,AI迭代速率也在加快。在代碼生成評估基準SWE-Bench Verified上,2024年8月GPT-4o的得分是33%,但到了新一代o3模型得分已翻倍為72%。
為了更好衡量AI模型在現實世界中的軟件工程能力,今天,OpenAI開源推出了一個全新的評估基準SWE-Lancer,首次將模型性能與貨幣價值掛上了鉤。
SWE-Lancer是一個包含1400多個來自Upwork平臺自由軟件工程任務的基準測試,這些任務在現實世界中的總報酬價值約100萬美元,讓AI去編程能掙到多少錢?
新基準的“特色”
SWE-Lancer基準任務價格反映真實的市場價值情況,任務越難,報酬越高。
其中既包括獨立工程任務,也包括管理任務,可在技術實施方案之間進行選擇,該基準不僅針對程序員,也針對整個開發團隊,包括架構師和管理人員。
相較於此前的軟件工程測試基準,SWE-Lancer具有多項優勢,例如:
1、全部1488個任務代表了僱主向自由工程師支付的真實報酬,提供了自然的、由市場決定的難度梯度,報酬從250美元到3.2萬美元不等,可謂相當可觀。
其中35%的任務價值超過1000美元,34%的任務價值在500美元到1000美元之間。個體貢獻者(IC)軟件工程(SWE)任務這一組包含了764個任務,總價值41.4775萬美元;SWE管理任務這一組包含724個任務,總價值58.5225萬美元。
2、現實世界中的大規模軟件工程,不僅需要具體敲代碼可開發,還需要有能力的技術統籌管理,該基準測試使用真實世界的數據評估模型充當SWE“技術主管的”角色。
3、具備高級全棧工程評測能力。SWE-Lancer代表現實世界的軟件工程,因為其任務來自擁有數百萬真實用戶的平臺。
其中的任務涉及移動和網頁端的工程開發、與API、瀏覽器和外部應用程序的交互,以及複雜問題的驗證和復現。
例如,有的任務是花費250美元提高可靠性(修復雙觸發的API調用問題)、1000美元修復漏洞(解決權限差異問題)和1.6萬美元實現新功能(在網頁、iOS、安卓和桌面端添加應用內視頻播放支持等)。
4、領域多樣性。74%的IC SWE任務和76%的SWE管理任務都涉及應用邏輯,而17%的IC SWE任務和18%的SWE管理任務涉及UI/UX開發。
就任務難度而言,SWE-Lancer選取的任務非常具有挑戰性,開源數據集中的任務平均需要26天才能在Github上解決。
此外,OpenAI表示無偏數據收集情況,它們從Upwork上選擇了具有代表性的任務樣本,並聘請了100名專業軟件工程師為所有任務編寫和驗證了端到端測試。
AI編碼賺錢能力PK
儘管很多科技大佬不斷在宣傳中聲稱AI模型可以取代“低級”工程師,但企業是否完全能用LLM取代人類軟件工程師仍然要打個大大的問號。
首批評測結果顯示,在完整的SWE-Lancer數據集上,目前被測試的AI金牌選手模型收益都遠低於100萬美元的潛在總報酬。
整體來看,所有模型在SWE管理任務上的表現都會優於IC SWE任務,而IC SWE任務在很大程度上仍未被AI模型充分攻克,目前受測模型表現最好是OpenAI競爭對手Anthropic開發的Claude 3.5 Sonnet。
在IC SWE任務上,所有模型單次通過率和收益率均低於30%,在SWE管理任務上,表現最佳的模型Claude 3.5 Sonnet得分是45%。
Claude 3.5 Sonnet在IC SWE和SWE管理任務上均表現出強勁性能,在IC SWE任務上比表現第二好的模型o1高出路9.7%,在SWE管理任務上高出3.4%。
如果轉換成收益,表現最佳的Claude 3.5 Sonnet在完整數據集上總收入超過40萬美元。
值得關注的一點是,更高的推理計算量會對“AI賺錢”大有幫助。
IC SWE任務上,研究人員對啟用了深度推理工具的o1模型進行的實驗表明,更高的推理計算量能將單次通過率從9.3%提升至16.5%,收益也相應從1.6萬美元增至2.9萬美元,收益率從6.8%提高到12.1%。
研究人員總結,最佳模型Claude 3.5 Sonnet雖然解決了26.2%的IC SWE問題,但剩下的大多數解決方案仍存在錯誤,想實現可靠部署還需要許多完善工作。其次是o1,然後是GPT-4o,並且管理任務的單次通過率通常是IC SWE任務單次通過率的兩倍以上。
這也意味著,即便AI代理取代人類軟件工程師的觀點被炒作得非常火,但企業當下仍需三思而行,AI模型可以解決一些“低級”編碼問題,但還不能取代“低級”軟件工程師,因為它們無法理解一些代碼錯誤存在的原因,並繼續犯了更多延伸錯誤。
目前的評估框架尚不支持多模態輸入,此外,研究人員還沒有對“投資回報率”進行評估,例如完成一項任務時,對支付給自由職業者的報酬與使用API的成本進行對比,這會是該基準下一步完善的重點。
做一個“AI增強型”程序員
就目前來看,AI要真正替代人類程序員還有很長一段路要走,畢竟開發一個軟件工程項目,不光是按要求生成代碼那麼簡單。
例如,程序員常常會遇到極為複雜、抽象、模糊的客戶需求問題,這需要對各種技術原理、業務邏輯和系統架構有深入理解,在優化複雜的軟件架構時,人類程序員能夠綜合考慮系統未來的可擴展性、可維護性和性能等因素,而AI可能難以做出全面的分析判斷。
此外,編程不僅僅是實現現有邏輯,還需要大量的創造力和創新思維,程序員需要構思新算法、設計獨特的軟件界面和交互方式等,這種真正新穎的想法和解決方案是AI的短板。
程序員通常還需要與團隊成員、客戶及其他利益相關者進行溝通與協作,需要理解各方需求和可實現程度,清晰表達自己的觀點,並與他人協同完成項目,此外,人類程序員具備持續學習並適應新變化的能力,他們能快速掌握新知識和技能,並將其應用到實際項目中,而一款成功的AI模型還需要各種訓練測試。
軟件開發行業也受到各種法律和監管約束,如知識產權、數據保護和軟件許可等,人工智能可能難以完全理解並遵守這些法律法規要求,從而埋下法律風險或責任糾紛。
長期來看,AI技術進步帶來的程序員崗位替代性依然存在,但短期來看,“AI增強型程序員”才是主流,掌握對最新AI工具的使用是優秀程序員的核心技能之一。
192k 帖子
119k 帖子
91k 帖子
76k 帖子
64k 帖子
59k 帖子
56k 帖子
53k 帖子
52k 帖子
51k 帖子
讓 AI 編程去幹活能掙到 40 萬美元?
作者:譚梓馨,頭部科技
圖片來源:由無界AI生成
大型語言模型 (LLM)正在改變軟件開發方式,AI現在能不能大規模替代人類程序員成為一個備受行業關注的話題。
在短短兩年時間裡,AI大模型已經從解決基礎計算機科學問題,發展到在國際編程競賽中與人類高手一較高下的程度,例如OpenAI o1曾在與人類參賽者相同的條件下參加2024國際信息學奧林匹克競賽(IOI)併成功獲得金牌,展現了強大的編程潛力。
同時,AI迭代速率也在加快。在代碼生成評估基準SWE-Bench Verified上,2024年8月GPT-4o的得分是33%,但到了新一代o3模型得分已翻倍為72%。
為了更好衡量AI模型在現實世界中的軟件工程能力,今天,OpenAI開源推出了一個全新的評估基準SWE-Lancer,首次將模型性能與貨幣價值掛上了鉤。
SWE-Lancer是一個包含1400多個來自Upwork平臺自由軟件工程任務的基準測試,這些任務在現實世界中的總報酬價值約100萬美元,讓AI去編程能掙到多少錢?
新基準的“特色”
SWE-Lancer基準任務價格反映真實的市場價值情況,任務越難,報酬越高。
其中既包括獨立工程任務,也包括管理任務,可在技術實施方案之間進行選擇,該基準不僅針對程序員,也針對整個開發團隊,包括架構師和管理人員。
相較於此前的軟件工程測試基準,SWE-Lancer具有多項優勢,例如:
1、全部1488個任務代表了僱主向自由工程師支付的真實報酬,提供了自然的、由市場決定的難度梯度,報酬從250美元到3.2萬美元不等,可謂相當可觀。
其中35%的任務價值超過1000美元,34%的任務價值在500美元到1000美元之間。個體貢獻者(IC)軟件工程(SWE)任務這一組包含了764個任務,總價值41.4775萬美元;SWE管理任務這一組包含724個任務,總價值58.5225萬美元。
2、現實世界中的大規模軟件工程,不僅需要具體敲代碼可開發,還需要有能力的技術統籌管理,該基準測試使用真實世界的數據評估模型充當SWE“技術主管的”角色。
3、具備高級全棧工程評測能力。SWE-Lancer代表現實世界的軟件工程,因為其任務來自擁有數百萬真實用戶的平臺。
其中的任務涉及移動和網頁端的工程開發、與API、瀏覽器和外部應用程序的交互,以及複雜問題的驗證和復現。
例如,有的任務是花費250美元提高可靠性(修復雙觸發的API調用問題)、1000美元修復漏洞(解決權限差異問題)和1.6萬美元實現新功能(在網頁、iOS、安卓和桌面端添加應用內視頻播放支持等)。
4、領域多樣性。74%的IC SWE任務和76%的SWE管理任務都涉及應用邏輯,而17%的IC SWE任務和18%的SWE管理任務涉及UI/UX開發。
就任務難度而言,SWE-Lancer選取的任務非常具有挑戰性,開源數據集中的任務平均需要26天才能在Github上解決。
此外,OpenAI表示無偏數據收集情況,它們從Upwork上選擇了具有代表性的任務樣本,並聘請了100名專業軟件工程師為所有任務編寫和驗證了端到端測試。
AI編碼賺錢能力PK
儘管很多科技大佬不斷在宣傳中聲稱AI模型可以取代“低級”工程師,但企業是否完全能用LLM取代人類軟件工程師仍然要打個大大的問號。
首批評測結果顯示,在完整的SWE-Lancer數據集上,目前被測試的AI金牌選手模型收益都遠低於100萬美元的潛在總報酬。
整體來看,所有模型在SWE管理任務上的表現都會優於IC SWE任務,而IC SWE任務在很大程度上仍未被AI模型充分攻克,目前受測模型表現最好是OpenAI競爭對手Anthropic開發的Claude 3.5 Sonnet。
在IC SWE任務上,所有模型單次通過率和收益率均低於30%,在SWE管理任務上,表現最佳的模型Claude 3.5 Sonnet得分是45%。
Claude 3.5 Sonnet在IC SWE和SWE管理任務上均表現出強勁性能,在IC SWE任務上比表現第二好的模型o1高出路9.7%,在SWE管理任務上高出3.4%。
如果轉換成收益,表現最佳的Claude 3.5 Sonnet在完整數據集上總收入超過40萬美元。
值得關注的一點是,更高的推理計算量會對“AI賺錢”大有幫助。
IC SWE任務上,研究人員對啟用了深度推理工具的o1模型進行的實驗表明,更高的推理計算量能將單次通過率從9.3%提升至16.5%,收益也相應從1.6萬美元增至2.9萬美元,收益率從6.8%提高到12.1%。
研究人員總結,最佳模型Claude 3.5 Sonnet雖然解決了26.2%的IC SWE問題,但剩下的大多數解決方案仍存在錯誤,想實現可靠部署還需要許多完善工作。其次是o1,然後是GPT-4o,並且管理任務的單次通過率通常是IC SWE任務單次通過率的兩倍以上。
這也意味著,即便AI代理取代人類軟件工程師的觀點被炒作得非常火,但企業當下仍需三思而行,AI模型可以解決一些“低級”編碼問題,但還不能取代“低級”軟件工程師,因為它們無法理解一些代碼錯誤存在的原因,並繼續犯了更多延伸錯誤。
目前的評估框架尚不支持多模態輸入,此外,研究人員還沒有對“投資回報率”進行評估,例如完成一項任務時,對支付給自由職業者的報酬與使用API的成本進行對比,這會是該基準下一步完善的重點。
做一個“AI增強型”程序員
就目前來看,AI要真正替代人類程序員還有很長一段路要走,畢竟開發一個軟件工程項目,不光是按要求生成代碼那麼簡單。
例如,程序員常常會遇到極為複雜、抽象、模糊的客戶需求問題,這需要對各種技術原理、業務邏輯和系統架構有深入理解,在優化複雜的軟件架構時,人類程序員能夠綜合考慮系統未來的可擴展性、可維護性和性能等因素,而AI可能難以做出全面的分析判斷。
此外,編程不僅僅是實現現有邏輯,還需要大量的創造力和創新思維,程序員需要構思新算法、設計獨特的軟件界面和交互方式等,這種真正新穎的想法和解決方案是AI的短板。
程序員通常還需要與團隊成員、客戶及其他利益相關者進行溝通與協作,需要理解各方需求和可實現程度,清晰表達自己的觀點,並與他人協同完成項目,此外,人類程序員具備持續學習並適應新變化的能力,他們能快速掌握新知識和技能,並將其應用到實際項目中,而一款成功的AI模型還需要各種訓練測試。
軟件開發行業也受到各種法律和監管約束,如知識產權、數據保護和軟件許可等,人工智能可能難以完全理解並遵守這些法律法規要求,從而埋下法律風險或責任糾紛。
長期來看,AI技術進步帶來的程序員崗位替代性依然存在,但短期來看,“AI增強型程序員”才是主流,掌握對最新AI工具的使用是優秀程序員的核心技能之一。