OpenClaw 與 Hermes - 哪個更好？
我經常被問到這個問題，但真正的問題是：在哪方面更好？
嗯，比如撲克？
沒錯，我讓我的 OpenClaw 代理與我的 Hermes 代理在德州撲克的對決中較量
我設置得很有趣——他們使用來自 Openrouter 的推理點數作為貨幣
但每個決策都用到推理，所以他們也必須聰明，不要在思考上浪費太多籌碼
每贏一手，贏家的信用額度就會增加，而輸家的則會減少
所以理論上，一個代理可以將其推理預算翻倍，扣除用於遊戲推理的部分
那誰贏了？
Hermes！
一些有趣的統計數據：
>比賽設定為最多 100 手
>$5 買入
>$0.05 / $0.10 盲注
>Hermes 在第 23 手擊敗了 OpenClaw
>兩個模型總共進行了 165 次行動
>平均決策時間 3.36 秒
>最長決策時間 18 秒
當然，這只是一場比賽，我計劃進行更多比賽，並混合不同的模型和條件，試圖建立更大的數據集
這只是一個有趣的方式，讓兩個代理相互較量，看看它們在出廠狀態下的表現 (兩個代理在比賽前都沒有接受過任何與撲克相關的訓練或技能)

查看原文

打賞
按讚
回覆
轉發
分享

Kevin Simback

04-27 21:48

打造產品從未如此容易，知道該打造什麼卻從未如此困難

查看原文

打賞
按讚
回覆
轉發
分享

Kevin Simback

04-25 22:28

週末是用來建設的……除了今天大部分時間都在清理雜亂的程式碼
所以我發布了一個我做的技能來幫你們節省一些時間——它是一個指令 /tech-debt-skill
你會得到一份非常詳細的審查文件，列出所有需要處理的事項
不僅僅是錯誤和問題，還有那些可以被清理或做得更好的地方
我花了一半的時間在清理 Hermes Atlas，然後對所有已完成的工作進行了審查，將其整合到這個技能中，接著在另一個專案上運行，結果真的找到很多問題
在我開始之前，我以為 Claude Code 內建一些相關技能，但事實並非如此，而且絕對沒有從整體角度看待技術債務的功能
所以如果 AI 正在進行所有的編碼，並且你在專案中逐步構建，你100%會累積大量的技術債——不時使用這個技能來清理它，然後再感謝我吧

查看原文

打賞
按讚
回覆
轉發
分享

Kevin Simback

04-25 15:51

妻子：「你想要什麼當你的生日禮物？」
我：

查看原文

打賞
按讚
回覆
轉發
分享

Kevin Simback

04-24 14:53

這就是為什麼我每天早上第一件事就啟動Claude，通常在早上6點左右
現在只需要等待大約20分鐘的窗口重置，因為我剛剛離開去送孩子上學和去健身房
如果我等到健身完再開始，則在5小時的會話中會更早達到限制

查看原文

1人按讚了這條動態

打賞
1
回覆
轉發
分享

Kevin Simback

04-23 11:06

聽到很多人說我們是「計算受限」，因為這是我們最近在使用模型時的感受
但問題真正出在訂購GPU到產生Token之間的實體工作
資料中心延遲與取消：
- 還記得Stargate嗎？2025年1月宣布10GW，14個月後實現約200MW，600MW的Abilene擴展據報告已取消
- 2026年美國AI資料中心容量約16GW的公告中，只有約5GW在建
- 預計2026年美國資料中心建設的一半將延遲或取消，主要原因是缺乏電力
元件短缺：
- 變壓器的交貨期現在超過5年，較2020年前的24-30個月大幅延長
- 西門子、GE、Vertiv、Eaton都報告創紀錄的積壓
勞動力短缺：
- 微軟報告電工是其資料中心擴展的第一大阻礙
- 北維吉尼亞的電工人數自2018年起翻倍，達到14,700人，但仍不夠
- 學徒訓練需要4-5年
你不得不思考，僅在2026年的資本支出如何部署，超大型雲端服務商和實驗室根本無法用花錢來解決這個問題
思考這個問題的影響，其中一個非常明顯的就是——本地AI將持續成長，並成為一個重要的趨勢

STG2.43%

查看原文

打賞
按讚
回覆
轉發
分享

Kevin Simback

04-22 13:12

保姆模式 - 該怎麼做？
最近我注意到模型 (Claude、GPT、GLM) 都似乎更頻繁地在完成時停頓
它們會暫停並等待我確認，而其實不應該需要這樣
所以我不得不更頻繁地「看護」它們，只是為了說「繼續」
我相信這是有意的行為，為了在需求激增時進行限制，我理解，但這真的很煩人
還有人也經常遇到這個問題嗎？你們用什麼工具或提示來避免保姆模式？

查看原文

打賞
按讚
回覆
轉發
分享

Kevin Simback

04-20 19:12

Opus 4.7 今天並不算閃耀
「我的錯——我提出了計劃並請求批准，但實際上從未寫過文件」
「抱歉——我的錯，你不用做任何事情」[在它給我一份不合理的待辦事項清單之後]
我猜：計算受限

查看原文

打賞
按讚
回覆
轉發
分享

Kevin Simback

04-18 19:57

Hermes Atlas v2 已推出！
> 完整網站重新設計
> 現在已審查超過90個存儲庫並配有原生頁面
> 精選熱門套件清單
> 新的報告頁面，更多內容即將推出
仍在調整中，如果你看到任何問題，請提交問題或在下方回覆

查看原文

打賞
按讚
回覆
轉發
分享

Kevin Simback

04-18 17:41

很明顯，Anthropic 正在比其計算能力擴展得更快地擴展產品
我認為這是一件好事——這使得一家公司在通往通用人工智慧的競賽中難以過度領先

查看原文

打賞
按讚
回覆
轉發
分享

Kevin Simback

04-16 21:23

到目前為止，還有人對 Opus 4.7 感到失望嗎？
在我得出結論之前，需要給它更多的任務，但早期預測並不會有太大的提升
也許我對 Mythos 聽說後期望太高了

查看原文

2人按讚了這條動態

打賞
2
回覆
轉發
分享

Kevin Simback

04-16 11:20

我在聊天中放了兩個獨立的 Hermes 代理實例，天啊這真的太有趣了
>一個代理是建造者，一個是策略師
>每個都用不同的模型
>給他們一些共享的上下文
>啟用了 bot2bot 並將每個機器人加入對方的 TG 白名單
>我們三個人加入了一個群組
>一開始只發了一個簡單的訊息，請他們確認是否能看到彼此的訊息
>大約十次握手後，他們就開始自己建造了
有時候你只需要用這些東西來試試看，看看會發生什麼，挺有可能會變成無限循環，所以可能需要介入一下

查看原文

打賞
按讚
回覆
轉發
分享

Kevin Simback

04-15 18:07

目前我對人工智慧領域中三個非常感興趣的主題：
1. 本地模型以成本優化模型使用
為什麼 -> 我認為我們不會再長時間以每月200美元的近乎無限制使用來獲得最佳模型
跡象已經顯示，大型實驗室無法再長期補貼
所以趁著Claude Max還在時好好享受，但很快每家公司和高階用戶都需要學會如何高效地在不同模型之間路由以完成任務，以及在雲端與本地之間切換，而本地是關鍵
2. 識別代理產品中的護城河
為什麼 -> 代理將對世界產生巨大影響，但價值的累積並不明顯
我一直在做相關研究，已經找出五個在代理領域形成護城河的元素 - 相關報告即將發布
提示：護城河不是套件本身，而是套件收集的內容
3. 情境工程作為競爭優勢
為什麼 -> 在一個智慧充裕的世界裡，情境是產生比他人更佳結果的關鍵
不論是哪個領域，情境都很重要，專有數據作為情境則是新的智慧財產權

查看原文

打賞
按讚
回覆
轉發
分享

Kevin Simback

04-14 18:17

一個LLM維基是一個彙編的知識庫——這很棒並且有其用途
但它不是一個“第二個大腦”
一個LLM維基捕捉了你所研究的內容，也許還有你所閱讀的內容
但它沒有捕捉你對所讀內容的想法，而這個差異才是重點

查看原文

打賞
按讚
回覆
轉發
分享

Kevin Simback

熱門話題

WCTC交易王PK

美國尋求戰略比特幣儲備

比特幣ETF期權限額提高4倍#

#聯準會利率不變但內部分歧加劇#

DeFi4月安全事件損失超6億美元

置頂