Kevin Simback

vip
幣齡 1.4 年
最高等級 0
用戶暫無簡介
“讓企業部署代理變得容易”的解決方案正在推出
這裡的關鍵將是分銷,而不一定是最好的產品,只要看看 Copilot 就知道了
查看原文
  • 打賞
  • 回覆
  • 轉發
  • 分享
不久前,感覺谷歌處於領先地位
現在則感覺是OpenAI和Anthropic之間的雙馬競賽
但很可能我們今年會看到谷歌、xAI甚至Meta帶來更多的跨越
這也是讓一切變得令人興奮的原因之一
查看原文
  • 打賞
  • 回覆
  • 轉發
  • 分享
我對開源人工智慧非常看好
並非要否定前沿實驗室或閉源解決方案
但進步的速度、社群的活力,以及來自激增的人工智慧需求的巨大經濟壓力,都指向同一個方向
查看原文
  • 打賞
  • 回覆
  • 轉發
  • 分享
如果你想看到經濟的真正勞動者,就在早上6點在紐約市走走
送貨司機、咖啡店老闆、街道清潔工,以及其他讓這座城市為400萬工作人口運轉的人
他們在凌晨3-4點起床,通勤一個小時,並且大多數人都不被注意到
查看原文
  • 打賞
  • 回覆
  • 轉發
  • 分享
OpenClaw 與 Hermes - 哪個更好?
我經常被問到這個問題,但真正的問題是:在哪方面更好?
嗯,比如撲克?
沒錯,我讓我的 OpenClaw 代理與我的 Hermes 代理在德州撲克的對決中較量
我設置得很有趣——他們使用來自 Openrouter 的推理點數作為貨幣
但每個決策都用到推理,所以他們也必須聰明,不要在思考上浪費太多籌碼
每贏一手,贏家的信用額度就會增加,而輸家的則會減少
所以理論上,一個代理可以將其推理預算翻倍,扣除用於遊戲推理的部分
那誰贏了?
Hermes!
一些有趣的統計數據:
>比賽設定為最多 100 手
>$5 買入
>$0.05 / $0.10 盲注
>Hermes 在第 23 手擊敗了 OpenClaw
>兩個模型總共進行了 165 次行動
>平均決策時間 3.36 秒
>最長決策時間 18 秒
當然,這只是一場比賽,我計劃進行更多比賽,並混合不同的模型和條件,試圖建立更大的數據集
這只是一個有趣的方式,讓兩個代理相互較量,看看它們在出廠狀態下的表現 (兩個代理在比賽前都沒有接受過任何與撲克相關的訓練或技能)
查看原文
post-image
  • 打賞
  • 回覆
  • 轉發
  • 分享
打造產品從未如此容易,知道該打造什麼卻從未如此困難
查看原文
  • 打賞
  • 回覆
  • 轉發
  • 分享
週末是用來建設的……除了今天大部分時間都在清理雜亂的程式碼
所以我發布了一個我做的技能來幫你們節省一些時間——它是一個指令 /tech-debt-skill
你會得到一份非常詳細的審查文件,列出所有需要處理的事項
不僅僅是錯誤和問題,還有那些可以被清理或做得更好的地方
我花了一半的時間在清理 Hermes Atlas,然後對所有已完成的工作進行了審查,將其整合到這個技能中,接著在另一個專案上運行,結果真的找到很多問題
在我開始之前,我以為 Claude Code 內建一些相關技能,但事實並非如此,而且絕對沒有從整體角度看待技術債務的功能
所以如果 AI 正在進行所有的編碼,並且你在專案中逐步構建,你100%會累積大量的技術債——不時使用這個技能來清理它,然後再感謝我吧
查看原文
  • 打賞
  • 回覆
  • 轉發
  • 分享
妻子:「你想要什麼當你的生日禮物?」
我:
查看原文
post-image
  • 打賞
  • 回覆
  • 轉發
  • 分享
這就是為什麼我每天早上第一件事就啟動Claude,通常在早上6點左右
現在只需要等待大約20分鐘的窗口重置,因為我剛剛離開去送孩子上學和去健身房
如果我等到健身完再開始,則在5小時的會話中會更早達到限制
查看原文
post-image
  • 打賞
  • 回覆
  • 轉發
  • 分享
聽到很多人說我們是「計算受限」,因為這是我們最近在使用模型時的感受
但問題真正出在訂購GPU到產生Token之間的實體工作
資料中心延遲與取消:
- 還記得Stargate嗎?2025年1月宣布10GW,14個月後實現約200MW,600MW的Abilene擴展據報告已取消
- 2026年美國AI資料中心容量約16GW的公告中,只有約5GW在建
- 預計2026年美國資料中心建設的一半將延遲或取消,主要原因是缺乏電力
元件短缺:
- 變壓器的交貨期現在超過5年,較2020年前的24-30個月大幅延長
- 西門子、GE、Vertiv、Eaton都報告創紀錄的積壓
勞動力短缺:
- 微軟報告電工是其資料中心擴展的第一大阻礙
- 北維吉尼亞的電工人數自2018年起翻倍,達到14,700人,但仍不夠
- 學徒訓練需要4-5年
你不得不思考,僅在2026年的資本支出如何部署,超大型雲端服務商和實驗室根本無法用花錢來解決這個問題
思考這個問題的影響,其中一個非常明顯的就是——本地AI將持續成長,並成為一個重要的趨勢
STG2.43%
查看原文
  • 打賞
  • 回覆
  • 轉發
  • 分享
保姆模式 - 該怎麼做?
最近我注意到模型 (Claude、GPT、GLM) 都似乎更頻繁地在完成時停頓
它們會暫停並等待我確認,而其實不應該需要這樣
所以我不得不更頻繁地「看護」它們,只是為了說「繼續」
我相信這是有意的行為,為了在需求激增時進行限制,我理解,但這真的很煩人
還有人也經常遇到這個問題嗎?你們用什麼工具或提示來避免保姆模式?
查看原文
  • 打賞
  • 回覆
  • 轉發
  • 分享
Opus 4.7 今天並不算閃耀
「我的錯——我提出了計劃並請求批准,但實際上從未寫過文件」
「抱歉——我的錯,你不用做任何事情」[在它給我一份不合理的待辦事項清單之後]
我猜:計算受限
查看原文
post-image
post-image
  • 打賞
  • 回覆
  • 轉發
  • 分享
Hermes Atlas v2 已推出!
> 完整網站重新設計
> 現在已審查超過90個存儲庫並配有原生頁面
> 精選熱門套件清單
> 新的報告頁面,更多內容即將推出
仍在調整中,如果你看到任何問題,請提交問題或在下方回覆
查看原文
post-image
  • 打賞
  • 回覆
  • 轉發
  • 分享
很明顯,Anthropic 正在比其計算能力擴展得更快地擴展產品
我認為這是一件好事——這使得一家公司在通往通用人工智慧的競賽中難以過度領先
查看原文
  • 打賞
  • 回覆
  • 轉發
  • 分享
到目前為止,還有人對 Opus 4.7 感到失望嗎?
在我得出結論之前,需要給它更多的任務,但早期預測並不會有太大的提升
也許我對 Mythos 聽說後期望太高了
查看原文
  • 打賞
  • 回覆
  • 轉發
  • 分享
我在聊天中放了兩個獨立的 Hermes 代理實例,天啊這真的太有趣了
>一個代理是建造者,一個是策略師
>每個都用不同的模型
>給他們一些共享的上下文
>啟用了 bot2bot 並將每個機器人加入對方的 TG 白名單
>我們三個人加入了一個群組
>一開始只發了一個簡單的訊息,請他們確認是否能看到彼此的訊息
>大約十次握手後,他們就開始自己建造了
有時候你只需要用這些東西來試試看,看看會發生什麼,挺有可能會變成無限循環,所以可能需要介入一下
查看原文
post-image
  • 打賞
  • 回覆
  • 轉發
  • 分享
目前我對人工智慧領域中三個非常感興趣的主題:
1. 本地模型以成本優化模型使用
為什麼 -> 我認為我們不會再長時間以每月200美元的近乎無限制使用來獲得最佳模型
跡象已經顯示,大型實驗室無法再長期補貼
所以趁著Claude Max還在時好好享受,但很快每家公司和高階用戶都需要學會如何高效地在不同模型之間路由以完成任務,以及在雲端與本地之間切換,而本地是關鍵
2. 識別代理產品中的護城河
為什麼 -> 代理將對世界產生巨大影響,但價值的累積並不明顯
我一直在做相關研究,已經找出五個在代理領域形成護城河的元素 - 相關報告即將發布
提示:護城河不是套件本身,而是套件收集的內容
3. 情境工程作為競爭優勢
為什麼 -> 在一個智慧充裕的世界裡,情境是產生比他人更佳結果的關鍵
不論是哪個領域,情境都很重要,專有數據作為情境則是新的智慧財產權
查看原文
  • 打賞
  • 回覆
  • 轉發
  • 分享
一個LLM維基是一個彙編的知識庫——這很棒並且有其用途
但它不是一個“第二個大腦”
一個LLM維基捕捉了你所研究的內容,也許還有你所閱讀的內容
但它沒有捕捉你對所讀內容的想法,而這個差異才是重點
查看原文
  • 打賞
  • 回覆
  • 轉發
  • 分享