Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
6 лайків
Нагородити
6
5
Репост
Поділіться
Прокоментувати
0/400
TxFailed
· 3год тому
Ця точка зору дійсно щось уловила. Завжди відчував, що ми йдемо довгою дорогою "великі зусилля — чудеса", постійно намагаючись накопичити параметри та дані, але справжня вузька місце — це архітектура системи. Ідея зовнішнього структурованого середовища трохи нагадує повернення до інтуїції традиційного програмного інженерії — складні проблеми не вирішуються силовим методом окремим модулем, а за допомогою витонченого поєднання та дизайну.
Мене лише цікавить одне: як саме в цій дослідницькій роботі "зовнішня рамка" конкретно вимірює ефективність? Наприклад, порівняння середовища виконання коду з кінцевою моделлю для обґрунтування затримки та вартості — який баланс? Відчувається, що саме це — ключ до реального впровадження.
Переглянути оригіналвідповісти на0
screenshot_gains
· 3год тому
Цей кут дійсно оновлює уявлення. Раніше я вважав, що закон масштабування — це просто накопичення параметрів, але не очікував, що вузьке місце насправді полягає у архітектурному дизайні. При довгому контексті переклад reasoning на зовнішнє середовище — це фактично деконструкція самої моделі? Відчувається, що майбутня конкуренція зосередиться не на тому, у кого модель більша, а на тому, хто зможе створити більш елегантну систему. Це трохи нагадує перехід від конкуренції за початкову обчислювальну потужність до епохи інженерної естетики.
Переглянути оригіналвідповісти на0
StableCoinKaren
· 3год тому
Цей кут дійсно вартий роздумів. Але я хочу запитати, чи не є складність проектування зовнішніх рамок за своєю суттю також "накладанням"? Просто об'єкт накладання змістився з ваги на системну архітектуру? Відчувається, що це більше компроміс, ніж фундаментальний прорив — проблема зсунулась з моделі на інженерний рівень, і в кінцевому підсумку потрібно витратити час на оптимізацію цих зовнішніх структур. Хотів би почути, чи не я неправильно розумію.
Переглянути оригіналвідповісти на0
HodlTheDoor
· 3год тому
Ця ідея дійсно руйнує наші попередні уявлення. Раніше всі зосереджувалися на обсязі параметрів, але тепер здається, що зовнішня система є ключовою, і це трохи нагадує перехід від безпосереднього накопичення до архітектурної парадигми. Але мене більше цікавить, наскільки така схема відокремлення у зовнішню рамку є зручною для підтримки та скільки вона коштує у реальній інженерній реалізації? Адже ваги хоча й "важкі", але принаймні є єдиною чорною скринькою, тоді як структуроване середовище, якщо його неправильно спроектувати, може швидко стати вузьким місцем у продуктивності. Чи є у статті MIT дані, що порівнюють цю частину?
Переглянути оригіналвідповісти на0
GasFeeTherapist
· 3год тому
Ця ідея дійсно змінила моє уявлення про великі моделі. Раніше я вважав, що потрібно прагнути до більшої кількості параметрів, але тепер здається, що цей підхід може бути неправильним. Виведення обчислювальної логіки у структуроване середовище звучить як перехід від переповнення пам’яті до зберігання на жорсткому диску — проблема не в обсязі, а в тому, як її організувати. Приклад середовища виконання коду особливо влучний — сама модель не потребує "розуміти", як запускати код, їй достатньо правильно його координувати. Якщо думати так, то у майбутньому, можливо, зовсім не потрібно буде продовжувати гонку за кількістю параметрів, натомість команда, яка зможе розробити найоптимальнішу структуру, виграє.
MIT的最新研究給了個有意思的啟示:當你處理超過千萬級別的token序列時,性能最優的方案壓根不是在模型權重裡堆砌能力——而是把核心計算邏輯剝離到外部的結構化環境中去。拿代碼執行環境來說,就是這個思路的實踐案例。
換個角度理解,知識和推理的載體正在發生轉變。從前我們以為模型的權重是理解一切的容器,但這個研究表明,當規模足夠大的時候,真正的智能湧現出來的地方,其實是那些精心設計的外部框架——那些幾何結構。這背後的含義挺深遠的:未來的AI架構可能會越來越像工程學,越來越依賴於巧妙的系統設計而非單純的模型規模。