Последние исследования MIT дали интересное озарение: при обработке последовательностей токенов свыше десятков миллионов, наиболее эффективное решение вовсе не заключается в наращивании возможностей внутри весов модели — а в переносе основной вычислительной логики во внешнюю структурированную среду. В качестве примера можно привести среду выполнения кода — это практический пример этой идеи.



С другой стороны, носители знаний и рассуждений претерпевают изменения. Ранее мы считали, что веса модели — это контейнер для понимания всего, но это исследование показывает, что при достаточно больших масштабах, истинный интеллект проявляется именно в тщательно спроектированных внешних рамках — в тех геометрических структурах. За этим скрывается глубокий смысл: будущие архитектуры ИИ, скорее всего, будут всё больше напоминать инженерные системы, всё больше полагаться на изящное системное проектирование, а не только на масштаб модели.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 5
  • Репост
  • Поделиться
комментарий
0/400
TxFailedvip
· 1ч назад
Этот взгляд действительно что-то уловил. Всегда казалось, что мы слишком долго идем по пути "большими усилиями к чудесам", постоянно пытаясь накапливать параметры и данные, но настоящий узкий момент на самом деле кроется в системной архитектуре. Идея внешней структурированной среды немного напоминает возвращение к интуиции традиционной разработки программного обеспечения — сложные задачи не решаются силой одного модуля, а за счет изящных комбинаций и дизайна. Просто интересно, как именно в этом исследовании измеряется эффективность "внешней рамки"? Например, как соотносятся фактическая задержка и стоимость при сравнении среды выполнения кода с модельным выводом end-to-end? Кажется, именно это и есть ключ, который действительно можно реализовать.
Посмотреть ОригиналОтветить0
screenshot_gainsvip
· 1ч назад
Этот взгляд действительно меняет восприятие. Ранее я думал, что закон масштабирования — это просто наращивание параметров, а оказалось, что узкое место на самом деле в архитектурном дизайне. Перенос вывода за пределы длинного контекста во внешнюю среду — разве это не разбор самой модели? Кажется, в будущем конкуренция сместится с того, у кого модель больше, на то, кто сможет спроектировать более элегантную систему. Это похоже на переход от борьбы за исходную вычислительную мощность к эпохе инженерной эстетики.
Посмотреть ОригиналОтветить0
StableCoinKarenvip
· 1ч назад
Этот угол зрения действительно заслуживает внимания. Но я хотел бы спросить, разве сложность проектирования внешних рамок по сути не сводится к "наращиванию"? Просто объект наращивания переместился с весов на системную архитектуру? Кажется, это скорее компромисс, а не принципиальный прорыв — перевод проблемы с модели на инженерный уровень, в конечном итоге все равно потребуется затратить время на оптимизацию этих внешних структур. Хотел бы услышать, не ошибаюсь ли я в своем понимании.
Посмотреть ОригиналОтветить0
HodlTheDoorvip
· 1ч назад
Эта идея действительно перевернула наши предыдущие представления. Ранее все сосредотачивались на параметрах, а теперь кажется, что именно дизайн внешних систем является ключевым, что похоже на переход от накапливания к архитектуре. Но меня больше всего интересует, какова будет поддерживаемость и стоимость реализации такого решения с отделением его в внешнюю рамочную структуру? В конце концов, хотя веса и "тяжелые", они по крайней мере являются единым черным ящиком, а структурированная среда при неправильном проектировании легко может стать узким местом по производительности. Есть ли у статьи MIT какие-либо данные, сопоставимые с этим аспектом?
Посмотреть ОригиналОтветить0
GasFeeTherapistvip
· 1ч назад
Эта идея действительно изменила мое понимание больших моделей. Раньше я считал, что нужно стремиться к большему количеству параметров, но теперь кажется, что этот подход мог быть ошибочным. Внедрение логики вычислений в структурированную среду звучит как переход от переполнения памяти к хранению на жестком диске — проблема не в объеме, а в организации. Примеры среды выполнения кода особенно попадают в точку: сама модель не нуждается в "понимании" того, как выполнять код, ей достаточно правильно управлять этим процессом. Если думать так, то в будущем, возможно, вовсе не потребуется гонка за увеличением параметров, а команды, способные разработать наиболее оптимальные рамки, выиграют.
Посмотреть ОригиналОтветить0
  • Закрепить