Вони створили непереможний "豆包手機", отримавши інвестицію ангела на рівні десятків мільйонів

robot
Генерація анотацій у процесі

“Help me order a cup of milk tea.”

“Help me buy a basketball on JD.com.”

“Help me purchase a movie ticket on Maoyan.”

Додаток Doubao та контроль над різними додатками ще не дали остаточного результату, операція замовлення їжі через Qianwen лише глибоко інтегрувала власну екосистему, а популярний зараз краб (OpenClaw) так і не вирішив проблему автоматизації між платформами.

Однак нещодавно два інженери з великої апаратної компанії, Чжан Чжуйонг і Шан Веньбан, використали власний Agent ZeroFlow. На базі багатомодальної китайської великої моделі, вони ідеально реалізували багатомодальне управління на Android-пристроях, Chrome та ПК. ZeroFlow може, як людина, дивитись на екран, натискати, скролити, вводити, виконуючи складні автоматизовані завдання між платформами.

Різна технічна стратегія

У спробах реалізувати автоматизацію між платформами, Doubao та AutoGLM від Zhipu обрали зовсім різні підходи.

Doubao співпрацює з виробниками телефонів, отримавши високі рівні доступу, що дозволяє обійти дозволи користувача або додатків, але це викликає опір з боку розробників додатків, що призводить до блокувань.

Open-source AutoGLM від Zhipu базується на доступі через протокол adb, але цей режим не працює безпосередньо на телефоні користувача, тому AutoGLM використовує віддалену віртуальну машину з adb для управління телефоном. Такий підхід вимагає високої довіри.

ZeroFlow ж базується на сервісі Android Accessibility. Це системна функція для людей з обмеженими можливостями, яка після отримання дозволу дозволяє Agent читати екран, отримувати всі тексти, кнопки, поля вводу. Також Agent може імітувати дії людини — натискання, довге натискання, скролінг, введення тексту. Це рішення, яке, теоретично, не може бути заблоковане додатками.

Здається просто, але на практиці розробка складна. Чжан Чжуйонг зазначив, що одна з головних проблем — багато сайтів у Китаї спроектовані так, щоб запобігти автоматизації (анти-скребінню та анти-ботам), з багатьма прихованими перевірками. Наприклад, кнопка може здаватися тут, але її реальний елемент може бути зовсім далі. Це ускладнює розуміння структури сайту з коду, але з багатомодальним підходом — значно простіше, тому що моделі можуть читати скріншоти.

Ще одна складність — мінімізація скріншотів для правильного розуміння намірів агента.

Шан Веньбан сказав, що реклама та автоматичні перенаправлення на сайтах заважають багатомодальному розумінню. Найкраща модель може дати правильну відповідь, але вартість токенів може бути занадто високою для звичайних користувачів. Тому важливо використовувати дешеві моделі, мінімізувати кількість знімків і досягати високої точності.

Баланс безпеки та зручності

Щодо побоювань щодо появи однакових продуктів великих компаній, Чжан Чжуйонг не хвилюється. Вони ізольовані у своїй екосистемі, і навіть маючи цю технологію, не зможуть створити справжню кросплатформену автоматизацію, оскільки конкуренти швидко зможуть її заблокувати. Це — перевага стартапів.

ZeroFlow запозичив ідею з відкритого коду OpenClaw, глибоко оптимізуючи безпеку, сумісність з моделями та зручність.

Основний ризик OpenClaw — це те, що він як “AI з можливістю виклику інструментів” може виконувати shell-команди, читати/писати файли, надсилати повідомлення, отримувати доступ до мережі. Якщо його зловживати або піддасти атакам, це може призвести до контролю над системою або витоку даних.

ZeroFlow використовує ізоляцію у пісочниці та механізми обробки малих моделей для захисту. Зокрема, у робочому просторі приховуються конфіденційні дані, щоб AI не міг їх легко знайти. Також всі взаємодії користувача з моделлю контролюються малими моделями, які при виявленні чутливих даних шифрують їх. Це забезпечує високий рівень приватності.

Що стосується зручності, ZeroFlow знизив поріг входу до рівня “низький”. Весь процес розгортання максимально схожий на звичайний інтернет-сервіс — достатньо відкрити браузер, зареєструватися і почати спілкування.

OpenClaw через стандарти Tool Calling від OpenAI/Anthropic має проблеми з адаптацією до вітчизняних моделей. ZeroFlow ж оптимізував роботу з популярними моделями (Kimi, DeepSeek), покращив досвід викликів інструментів і зменшив довжину підказок майже на 40%, що суттєво знижує вартість токенів.

Чжан Чжуйонг сказав, що для звичайних користувачів ціна використання ZeroFlow може знизитися приблизно на 30%.

Від програмного агента до універсального

ZeroFlow — це не просто швидкий спосіб підключитися.

Коли з’явилася хвиля великих мовних моделей, команда Чжан Чжуйонга і Шан Веньбана була на передовій. Вони не гналися за великими історіями, а вирішували конкретну проблему — як звільнити інженерів від складних деталей коду і дати їм змогу зосередитися на творчості. Вони створили перший покоління програмних агентів — “партнера-кодера”, що розуміє контекст, передбачає наміри і самостійно доповнює логіку.

Цей інструмент поступово розвивався у їхній системі. Від простих підказок GPT-3.5 до багатократної пам’яті, викликів інструментів, перевірки коду — кожна ітерація базувалася на реальних потребах. За кілька років ця система значно підвищила їхню продуктивність.

Коли OpenClaw прорвався, Чжан Чжуйонг згадує, що вони сиділи в залі, дивилися демонстраційні відео і мовчали довго. Не через здивування, а тому, що вони впізнали щось знайоме — шлях, яким вони йшли, тепер проходить ширший світ.

Вони зрозуміли, що за три роки створили не просто інструмент для програмування, а методологію — “як зробити так, щоб агент справді розумів людські наміри і виконував їх”.

“Якщо ця методологія може подвоїти ефективність інженерів, чому вона не може звільнити кожного у будь-якій галузі?” — так з’явилася ідея ZeroFlow.

“Один може йти швидше”

Зліва направо: Шан Веньбан, Чжан Чжуйонг

“Я вважаю, що агент дійсно може підвищити якість життя всіх, і кожен має бути звільнений для більш високих цілей. Але зараз головна проблема — це висока вартість доступу для звичайних людей. Не лише мати краба, а й дати йому можливість автоматично між платформами вирішувати реальні задачі. Тому ми прагнемо створити універсального агента з нульовим входом — просто відкрив браузер і користуйся,” — сказав Чжан Чжуйонг.

“ZeroFlow — це не просто заміна програмного помічника, а перенесення основної парадигми (розуміння намірів → планування → виклик інструментів → постійне виконання → зворотній зв’язок) у широку сферу знань. Фінансовий аналіз, операційні процеси, створення контенту, аналітика — там, де є повтори, логіка і вихідні дані, — там буде ZeroFlow,” — додав Шан Веньбан.

Коли його запитали, чому вони не реалізували цю ідею у своїй попередній компанії, Чжан Чжуйонг і Шан Веньбан посміхнулися: “Я вважаю, що команда може йти далі, але один — швидше. У цьому часі швидкість важливіша.”

Зараз компанія Yiling Technology отримала інвестиції від особистих ангельських інвесторів і фонду Hansheng Capital у майже десять мільйонів юанів, які будуть спрямовані на подальше вдосконалення продукту та його просування.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити