DeepSeek перед випуском V4: особливості, організація та унікальні цілі Лян Веньфена

金色财经_ · 2026-04-02T11:49:09+00:00

DeepSeek знаходиться на порозі змін. З другої половини 2025 року до сьогодні члени DeepSeek, які явно покинули компанію або знайшли нове місце роботи, включають: Вань Бінсюань, якого наприкінці минулого року залучила Tencent, він є ключовим автором DeepSeek LLM (першого покоління великих мовних моделей DeepSeek) і з того часу бере участь у тренуванні всіх поколінь моделей. Бей Хаоран, який пішов приблизно перед святами Весни, є ключовим автором серії DeepSeek-OCR і, ймовірно, приєднається до великої компанії. Го Да Я, який офіційно залишив посаду нещодавно, є ключовим автором DeepSeek-R1 і, ймовірно, приєднається до великої компанії. А також Руан Чонг, який раніше цього року пішов у відставку і вийшов на пенсію. Він у січні цього року офіційно приєднався до стартапу з автоматичного водіння Yuanrong Qixing; Руан Чонг був з

金色财经_

2026-04-02 11:49:09

DeepSeek зараз перебуває на межі змін: з другої половини 2025 року і донині точно пішли від DeepSeek, знайшли нове місце та нові призначення такі учасники DeepSeek:

Ван Бінсюань, якого наприкінці минулого року переманила Тенсент (姚顺雨), — він є ключовим автором DeepSeek LLM (DeepSeek перше покоління великої мовної моделі), після чого брав участь у навчанні моделей усіх наступних поколінь.
Вей Хаорань, який пішов приблизно перед або після Празника Весни, — він є ключовим автором серії DeepSeek-OCR; імовірно, влаштується в якийсь великий технічний завод.
Го Дая, який нещодавно офіційно звільнився, — він є ключовим автором DeepSeek-R1; імовірно, влаштується в якийсь великий технічний завод.
А також Руан Чунь, який на початку 2025 року пішов у відставку та перейшов у статус пенсіонера: у січні цього року він офіційно оголосив про вступ до стартап-компанії з автоматизованого водіння Yuanrong Qixing; Руан Чунь — давній учасник, що приєднався ще за часів X, є ключовим вкладником у мультимодальні результати DeepSeek на кшталт Janus-Pro тощо.

Раніше DeepSeek не проводив раундів фінансування, тож немає чіткої оцінки вартості компанії. Коли вартість ринку або оцінки інших AI-компаній зростають, Лян Веньфенґ намагається відповісти на запитання членів команди: скільки ж насправді коштує компанія? Від цього залежить, яка реальна цінність у опціонних угодах, які підписали співробітники.

Починаючи з осені 2025 року, Лян Веньфенґ також почав більше зосереджуватися на продуктізації та комерціалізації. У DeepSeek уже є продуктові команди на кілька десятків людей, але вони ще не торкнулися популярних напрямів на кшталт AI-програмування та універсальних Agent; на C-стороні в них досі є лише типовий Chatbot-продукт.

Новою темою для Лян Веньфенґа стала ще й управлінська масштабність. Кількість людей у DeepSeek уже перевищила X; це найбільша організація, якою він коли-небудь керував.

Під тягарем усіх цих змін DeepSeek V4 усе ще не було офіційно випущено.

Насправді, приблизно в січні 26-го, V4 — у версії з невеликими параметрами — вже надали деяким спільнотам з відкритих фреймворків, які почали під адаптацію. Згідно з попередніми відносно оптимістичними очікуваннями, версія з великими параметрами V4 могла б бути випущена та відкрито розміщена десь у середині лютого, перед або після Празника Весни. За наявною інформацією, DeepSeek V4 може вийти в квітні.

Хтось іде — більше людей обирає залишитися. DeepSeek змінюється, але в нього є багато рис, які не змінюються.

Це єдина у світі «неконкурентна» (не «вкочуються») основна AI Lab. Коли ключові AI-розробники американських і китайських компаній на кшталт Google, OpenAI, xAI, ByteDance працюють по 70~80 годин на тиждень, більшість працівників DeepSeek у будні виходять із офісу десь о 18:00~19:00, а зранку також не відмічаються.

Лян Веньфенґ вважає, що час, за який одна людина здатна видавати високоякісний результат протягом дня, навряд чи може перевищувати 6~8 годин.

У DeepSeek немає чіткої системи оцінювання результативності та DDL (кінцевого терміну). Ця компактна організація з надзвичайною щільністю талантів усе ще зберігає «природний розподіл ролей»: дослідники можуть вільно збирати команди або самостійно «копати» якісь нові ідеї.

«Крім головної лінії, у DeepSeek теж є люди, які займаються довгостроковими дослідженнями, від яких може не бути жодного результату протягом року». «DeepSeek — це компанія, де справді хочуть займатися дослідженнями; в країні, навіть у всьому світі можна знайти, мабуть, найкраще місце саме для цього». Так сказали люди, близькі до DeepSeek.

Звісно, у DeepSeek є ще одна особливість: таємничість. Особливо після 2025 року: окрім публічних технічних звітів, від засновника Лян Веньфенґа до колективного «мовчання» команди — у соціальних медіа та спільнотах, де активні професіонали AI, майже неможливо почути їхні голоси.

У цьому матеріалі ми показуємо риси DeepSeek, його фокус роботи та спосіб функціонування організації, дізнані з різних каналів, а також ті зміни, що відбуваються в цій організації, чисельність якої менша ніж 200 людей. Усе це бере початок у унікальних цілях, які Лян Веньфенґ поставив перед DeepSeek.

Лян Веньфенґ: робити небагато справ і доводити до досконалості

Цілі Лян Веньфенґа в AI були сформовані задовго до того, як DeepSeek було засновано у 2023 році.

У 2016 році один із авторів ідеї AGI, засновник DeepMind Хассабіс збирав команду з кількісної торгівлі, намагаючись отримувати дохід від DeepMind, щоб він міг заробляти для тогочасної компанії, коли DeepMind відділявся від Google; проте грошей так і не заробили.

У тому ж році, після того як Лян Веньфенґ закінчив виш за напрямом бакалавр/магістр у Чжецзянському університеті, він уже 8 років займався кількісними інвестиціями. У 2015 він заснував X, у 2016 почав проганяти глибинне навчання на GPU в реальних біржових угодах; у кінці 2017 йому вдалося «майже всі торгові стратегії зробити AI-ізованими», а з 2019 року він почав створювати перший обчислювальний кластер X — «Fеєню 1», який налічував 1100 GPU.

Також у 2019 році X AI (X Інтелектуальна технологічна дослідницька компанія) офіційно зареєстрували. Зараз Рофулі, яка відповідає за AI у Xiaomi, і Руан Чунь, який нещодавно приєднався до Yuanrong, — обидва прийшли в X після цього, а потім у 2023 році перейшли в DeepSeek.

Як людина, яка стала фінансово незалежною ще до 30 років, Лян Веньфенґ живе просто і таємничо.

За враженнями людей навколо, він може багато днів носити одну й ту саму одежину. У Ханчжоу він довго жив у готелях, а в Пекіні, де більшість R&D працівників DeepSeek, знімав житло. Він худорлявий, має звички щодо спорту; відомий його хобі — піші походи та інші види активного відпочинку на природі.

Жен Інсунь (Jensen Huang) запрошує працівників Nvidia до себе додому, п’є невеличке вино, розмовляє про повсякденне та від щирого серця показує спортивні автомобілі. А Лян Веньфенґ не бере участі в квартальних корпоративних виїздах, рідко їде з членами команди на спільні обіди; наприкінці року великі командоутворюючі заходи також лише з’являються під час виступу, але він не проходить їх весь час.

У 2022 році один співробітник X під назвою «звичайний маленький свин» приватно пожертвував благодійній організації 138 млн юанів. Пізніше багато хто припускав, що ця «маленька свиня» — це Лян Веньфенґ. Відповідь працівників X була така: «Пожертви співробітників — анонімні, і в компанії ніхто не знає справжньої особистості “свинки”».

У межах його робочого поля Лян Веньфенґ робить лише небагато справ. Він не робить того, що часто роблять більшість CEO-початківців, наприклад, фінансування.

У 2023 році Лян Веньфенґ у приватному форматі зустрічався з деякими інвесторами. Але за нашими відомостями, він висунув нетипову вимогу: як в інвесторських угодах на кшталт OpenAI і Microsoft, Лян Веньфенґ хотів, щоб інвестори погодилися на верхню межу винагороди. Після цієї серії зустрічей жодна інституція так і не інвестувала DeepSeek.

Після того протягом двох років у Китаї хвилями йшло фінансування великомасштабних моделей: траплялися раунди на сотні мільйонів і навіть кілька мільярдів юанів; однак Лян Веньфенґ більше не зустрічався з інвесторами і навіть не встановлював нових контактів. Навіть коли не було «вікна» для фінансування, більшість засновників зазвичай не відмовляються познайомитися з партнерами першого ешелону інституцій, але Лян Веньфенґ відмовив більшості таких прохань.

Лян Веньфенґ практично все свій час вклав у ті небагато справ, на яких, як він вважає, треба зосередитися — і робить це ретельно, доводить до досконалості.

Одним із ключів до попереднього успіху DeepSeek було «викинути силу в одну діру»: вони чітко ставили мовну модель як вищий пріоритет і не робили популярні напрями на кшталт мультимодального генеративного.

У вибраній головній лінії Лян Веньфенґ «hands on» — глибоко занурювався в деталі. Він вивчав знання з алгоритмів, архітектур, Infra та даних у командних учасників із різним бэкґраундом, і сам брав участь у обговореннях деталей моделі та продукту.

Багато хто, хто бачив Лян Веньфенґа, згадує, що він не має CEO- або так званого «геніального» «аури»; швидше за все він як дослідник — і в розмовах з людьми найбільше говорить із ними про конкретні технічні питання.

Засновник інвестфонду Oasis Capital партнер Чжан Цзіньцзян колись поділився в «Тими, хто зміг пожити» маленькою історією: він запитав себе про інвестицію в MiniMax засновника Ян Цзюньцзє: «Чи є хтось більш зосереджений за тебе?» Ян Цзюньцзє відповів, що одного разу він домовився про вечерю з другом, якого ще не бачив. Прийшов раніше і побачив хлопця в футболці — подумав, що це помічник. Той почав без представлення: він поставив Ян Цзюньцзє багато технічних запитань. Після пів години Ян Цзюньцзє сказав: «Коли приїде Лян?». Друга сторона відповіла: «Я — Лян Веньфенґ».

Організація DeepSeek: плоска структура, перехресний розподіл, без переробок

Відповідно до стилю Лян Веньфенґа, організація DeepSeek надзвичайно плоска: в кожному етапі — перехресний розподіл ролей, обережне масштабування та без додаткових робочих годин.

Коли X створювали, у Лян Веньфенґа були партнери, а в DeepSeek не було другого керівника, і особливо в дослідницькій команді існувало лише два рівні: Лян Веньфенґ та інші дослідники. Лян Веньфенґ бере на себе найважливіші рішення і відповідає за найбільші наслідки.

Ця частина дослідницької команди нині налічує приблизно понад 100 людей; вона схожа на велику лабораторію. Дослідники DeepSeek, народжені переважно близько 2000 року, звикли називати Лян Веньфенґа, який народився у 1985 році, «Лян-шеф». Цей шеф більше схожий на наставника: організовує R&D, координує ресурси, а також робить конкретні дослідження; у спільних результатах він підписується як corresponding author.

Найбільше особисто залучений Лян Веньфенґ у команду базової моделі: він після глибоких обговорень з командою визначає «версію архітектури» кожного наступного покоління базової моделі. У цій команді — кілька десятків людей; вони є основною силою для попереднього тренування.

Дуже тісно пов’язаними з базовою архітектурою є команди Infra та даних — у кожній по кілька десятків людей. Команда Infra в деяких компаніях більше схожа на «внутрішнього підрядника», який виконує алгоритмічні запити; а в DeepSeek команда Infra ще на етапі затвердження перед тренуванням моделей бере участь в обговореннях та дає поради.

Ця щільна взаємодія між модулями робить межі між командами в DeepSeek менш чіткими й формує «перехресний розподіл ролей». Це, по суті, найбільш відповідний формат співпраці під особливості тренування моделей, адже на етапах експериментів і затвердження версій потрібно враховувати вибір даних та реалізацію Infra.

Лян Веньфенґ — це детектор і «клей», який з’єднує ці різні модулі: він відвідує засідання кожної команди, щоб знати загальний прогрес і «критичні місця». Більшість тижневих нарад у DeepSeek також відкриті для людей з інших команд, тож можна бути присутнім між командами.

Стиль «номер один» із прагненням занурюватися в деталі та самовільно сформована щільна співпраця — все це важко повторити в великій організації. Саме тому DeepSeek обережно збільшує масштаби основної R&D-команди.

Ще одна дуже особлива річ у глобальному AI-крузі: DeepSeek не працює понаднормово. Вони не відмічаються і не мають чітких систем оцінювання продуктивності; у будні більшість людей виходить десь о 6:00~7:00. DeepSeek безкоштовно забезпечує працівникам деякі пільги після роботи: курси для занять із м’ячем, компенсація за спортивні майданчики тощо.

Лян Веньфенґ вважає: час високоякісної роботи, який може видати одна людина щодня, навряд чи перевищить 6~8 годин. Втома від переробок і «сліпа» оцінка можуть, навпаки, марно витратити цінні обчислювальні ресурси — і це невигідно.

У кадровій структурі раніше DeepSeek практично не проводив «соціальний найм» (社招), а здебільшого зберігав випускників університетів і стажерів. На початку 2025 року «Wan Dian» упорядкував дані про 172 дослідників (включно зі стажерами), які брали участь у трьох поколіннях моделей DeepSeek (LLM, V2, V3&R1), і знайшов резюме 84 з них: понад 70% — студенти бакалаврату та магістратури, понад 70% — молодші 30 років.

До V3 та R1 DeepSeek втілювався в глобальний топ першого ешелону моделей: приблизно 1/10 кількості людей у порівнянні з великими фабриками, і близько 1/2 середнього робочого часу на людину — із надвисокою зосередженістю та фокусом.

Але з тим, як напрямів, у яких треба досліджувати, щоб дістатися до вершинних AI-здібностей, стає дедалі більше, підтримувати такі ж масштаби організації, стиль комунікацій і атмосферу співпраці дедалі складніше.

Останні 15 місяців DeepSeek продовжував бути собою, а зовнішній світ різко змінювався

Після того як на початку 2025 року V3 та R1 вибухово стали популярними, DeepSeek не розгорнув «режим посилення» і не дістав козир із усією силою. Натомість вони продовжили розробку вздовж напрямів, на яких зосереджуються; опубліковані результати загалом можна поділити на три типи:

Перший — оптимізація ефективності: максимально «видавлювали» потужність GPU, підвищуючи кількість інтелекту, яку можна отримати на одиницю обчислювальної потужності. Це включає цілу низку інфраструктур (training та inference Infra), які DeepSeek відкрито розмістив у рамках open-source під час «тижня» на початку 2025 року, і охоплює inference kernel, бібліотеку для комунікацій, бібліотеку матричних множень і фреймворки для обробки даних. (Примітка: kernel — це код, який виконується на GPU на найнижчому рівні обчислень і використовується для реалізації фундаментальних операцій, як-от матричне множення.)

Також — постійні покращення «механізму уваги»: наприклад, на початку 2025 року NSA (native sparse attention — нативна розріджена увага) і пізніше DSA (dynamic sparse attention — динамічна розріджена увага). Додатково, ще раніше у V2 існувала MLA (multi-head latent attention — латентна увага з багатьма головами). Їхня спільна мета — обробляти більш довгий контекст без суттєвого збільшення обчислювальної потужності.

У DeepSeek-V3.2, оновленому станом на кінець вересня 25-го, можна також побачити, що DeepSeek навіть замінив базову бібліотеку операторів із традиційних мов CUDA та Triton на TileLang. CUDA — це мова найнижчого рівня від Nvidia, Triton — open-source від OpenAI, а TileLang — ініційований командою з Університету Пекіна проект з відкритим кодом, яку очолює Ян Чжі (楊智).

Другий — покращення архітектури моделі: наприклад, mHC (popular constraint superconnection — популярне обмежувальне надз’єднання), яке було випущене на початку 26-го. Воно спрямоване на підвищення стабільності під час великомасштабного тренування; і Engram — довгострокову пам’ять, створену поза моделлю. Зовнішні спостерігачі загалом вважають, що mHC буде використано в тренуванні V4.

Третій — деякі «нетипові» дослідження: наприклад, DeepSeek-OCR, який спершу переводить текст у зображення, а потім подає його в модель. Ця ідея полягає в тому, щоб модель розуміла абзаци й ієрархії в більш близькому до людського «читання тексту» способі, підвищуючи здатність до розуміння складних документів.

Усередині DeepSeek тривають і інші спроби такого типу — включно із безперервним навчанням, автономним навчанням тощо.

Лян Веньфенґ також у 2025 році наймав кількох радників із нейронауковим і мозковим бэкґраундом, щоб дослідити механізми навчання, більш близькі до роботи людського мозку.

Паралельно з цим, зовнішнє AI-середовище з 2025 року донині різко змінюється. Найбільш обговорювані лінії конкуренції — дві:

Перша — Agentic-моделі та застосунки, які спираються на coding-здібності. Це зараз найгарячіший напрям конкуренції Anthropic та OpenAI: конфронтація двох найновіших моделей Opus 4.6 проти GPT-5.4, а також протиставлення продуктів Claude Code та Codex. OpenClaw, який вибухово став популярним з початку року, теж є найновішою формою Agentic-застосунків.

Друга — мультимодальне генерування. Ця сфера «виходила в медіа» через так звані «чарівні ефекти» кілька разів: OpenAI GPT-4o навесні 2025 року, Google NanoBanana восени, а потім Byte Seedance 2.0 напередодні Празника Весни 2026 року. А відеогенерація також пов’язана з більш передовим напрямом — «world model» (модель світу).

DeepSeek спершу не надто вкладалася в мультимодальне генерування, бо Лян Веньфенґ вважає, що мультимодальне генерування — не є головною лінією розумності.

У напрямі Agent DeepSeek-V3.2 підсилював Agent-здібності, але загальна частота ітерацій DeepSeek після R1 у якийсь момент зросла відчуттям тривоги за те, що «інші маленькі тигри» випереджають.

З початку 2025 року донині Zhipu, MiniMax та Kimi відповідно оновили моделі на 5 версій, 4 версії та 3 версії — із фокусом на Agent або посилення coding.

Згідно з даними OpenRouter: за минулі 30 днів (24 лютого — 26 березня), серед топ-10 моделей за кількістю токенів, спожитих застосунком OpenClaw, 6 моделей походять із Китаю, а DeepSeek-V3.2 посідає 12 місце. (Примітка: OpenRouter більше відображає сценарії використання з боку персональних і невеликих розробників, тому його можна використовувати лише як орієнтир споживання токенів у цілому.)

Цілі DeepSeek не є найбільш «попсовими»: хтось пішов, хтось залишився

Відмінність і «самобутність» DeepSeek пов’язана з AGI-ціллю, яку розділяв Лян Веньфенґ. Окрім прагнення до верхньої межі інтелекту великих моделей, він вважає ще дві речі дуже важливими:

Перше — робити великі моделі на основі вітчизняної екосистеми.

DeepSeek інвестує в адаптацію під вітчизняні GPU, щоб вирішити реальність, де постачання високопродуктивних GPU є обмеженим. Наприклад, після оновлення V3.1 минулого серпня вони згадали, що UE8M0 FP8, який вони використовують,— це формат стиснення даних,— «розроблений саме під майбутні вітчизняні чипи наступного покоління». Те, про що ми говорили вище, — заміна Triton на TileLang на базі вітчизняного open-source — це теж саме тип роботи: вона дає більше ініціативи на базовому рівні.

Під час спілкування з фахівцями AI Лян Веньфенґ також озвучував таке припущення: «А що, якщо використати лише частину існуючих обчислювальних потужностей, щоб реалізувати весь сучасний інтелект?»

Друге — «інновації у власному стилі» (原创式创新): робити те, що великий завод або інші стартапи не наважуються навіть пробувати, або не хочуть пробувати.

Наприклад, у другій половині 2024 року DeepSeek почав серію Janus і спробував уніфікувати розуміння та генерацію в мультимодальності. DeepSeek також робив серію Prover, досліджуючи формальні докази. Є й OCR 25-го року, а також внутрішні роботи щодо безперервного навчання та досліджень, натхненних біонічним людським мозком.

Як засновник, Лян Веньфенґ найбільше турбується не лише про результат роботи моделі як такий, але й про більш сутнісні, оригінальні відкриття, які з’являються на шляху до досягнення ефекту.

Але це не зовсім узгоджується з частиною очікувань зовнішнього середовища щодо DeepSeek: деякі люди хочуть, щоб кожного разу DeepSeek виходив із таким же «вражаючим здивуванням» як R1. Однак це іноді надто важко, і воно не відповідає технічним законам.

Лян Веньфенґ може не зважати на зовнішні очікування, але він мусить мати справу з внутрішніми очікуваннями.

Для більшості молодих дослідників робити більше передових досліджень також означає брати на себе більше невизначеності. Більш «страховий» шлях — постійно брати участь у галузі з найсильнішими моделями, підписуватися на тих технічних звітах, які всі привертають увагою, і мати достатньо ресурсів GPU для експериментів та досліджень.

Окрім слави та впливу, ще одна привабливість DeepSeek для зовнішніх членів команди — обіцянка високих статків.

Абсолютна зарплата в DeepSeek не є низькою, але зовні платять ще більше. Декілька хедхантерів розповіли нам, що конкуренти пропонують «цифри, від яких важко відмовитися», що «потрібно підняти в 2–3 рази — і це нормально», і що «інші компанії пропонують пакет із 8 цифр (сума в акціях або опціонах)».

Новина також у тому, що MiniMax і Zhipu стали публічними компаніями, а їхні котирування зросли; IPO для Jieyue та Kimi також було винесено в порядок денний. Через це деякі співробітники DeepSeek почали ставити більше запитань щодо тієї частини опціонів у себе, де немає чіткого прайсингу.

Перед обличчям величезних оферів більше людей обирає залишатися. Вони визнають спосіб Лян Веньфенґа досягати AGI, готові робити експерименти, які не є конкурентно-орієнтованими; і вони також звикли до відносно вільної та спокійної атмосфери досліджень у DeepSeek.

Нещодавні зовнішні чутки не є точними: команда DeepSeek має певні зміни, але цілі групи не «втекли» разом.

«Ті, хто залишився, певною мірою зберігають ідеалізм». Так сказали люди, близькі до DeepSeek. «Лян Веньфенґ вважає, що крім головної лінії щодо підвищення ефективності та продуктивності моделей, потрібно робити якісь напрямки, де віддача зараз неясна, бо “за кордоном ті компанії, що мають більше обчислювальних потужностей, як-от Google й OpenAI, всередині точно пробують усілякі напрями”».

Досі відносно невелика команда DeepSeek і прозорість та плоска атмосфера з моменту заснування дозволяють співробітникам природно розподіляти ролі: іноді команда запускає новий напрям лише тому, що троє-п’ятеро людей вважають, що «idea» хороша, і тоді беруться за неї разом.

Це перекликається з тим, як Лян Веньфенґ описував ситуацію в інтерв’ю 《暗涌》 у 2024 році: «Зазвичай ми не плануємо розподіл ролей заздалегідь», «кожен має власний унікальний шлях розвитку, усі приходять із власними ідеями — і нікому не потрібно його підштовхувати… втім, коли idea демонструє потенціал, ми зверху розподіляємо ресурси».

«DeepSeek — це компанія, де справді хочуть займатися дослідженнями; в Китаї, навіть у всьому світі, знайти, мабуть, найкраще місце для цього можна саме тут». Так сказали люди, близькі до DeepSeek.

Змінити світ — і світ також змінює

Унікальне розуміння та декомпозиція цілей AGI — це цінність DeepSeek і причина внутрішньої напруги, з якою він стикається зараз. Бо Лян Веньфенґ більше цінує побудову екосистеми та оригінальні дослідження, тоді як у галузі в цілому перше місце займає «залишатися найсильнішим»; цілі перетинаються, але не є цілком однаковими.

Крім того, коли розвиток великих моделей дійшов до сьогоднішнього етапу, стандарти «сильності» й «оригінальності» дедалі більше стають розмитими та надто суб’єктивними.

Значення benchmark не можуть повністю виміряти рівень моделі. Особливо після входу в конкуренцію Agentic-моделей: продуктова «рука», а також довгий хвіст кейсів використання й різноманітніші дані стають важливішими. А це саме те місце, куди DeepSeek, фокусуючись на R&D моделей, раніше вкладала недостатньо.

Щодо V4, який невдовзі має вийти: імовірно, він усе ще буде найсильнішою відкритою моделлю, але навряд чи буде «винищувальною» силою. Бо нині різні розробники й користувачі в різних сценаріях дедалі по-різному визначають «сильність» і сприймають її на власному досвіді.

Що вважати оригінальним і цінним новим дослідженням — завжди багатоголосся; воно залежить від досвіду, суджень та інтуїції різних дослідників, так званого «технічного смаку».

Перевіряти смак можна лише через експерименти, а кількість і масштаб експериментів, своєю чергою, обмежені ресурсами GPU. Порівняно з колегами, DeepSeek не має так багато обчислювальних потужностей.

Нарешті, незалежно від того, чи йдеться про екосистемну базу для великих моделей, чи про процес пошуку напрямів, які інші команди можуть не наважитися пробувати: віддача від усіх тих речей, які цінує Лян Веньфенґ, є вкрай неясною.

Передові дослідження за своєю природою мають брати на себе таку невизначеність, але в реальності — з огляду на обмежені ресурси обчислень — це не зовсім узгоджується з очікуваннями зовнішнього світу, де від DeepSeek хочуть постійних приємних здивувань, а навіть «знищення конкуренції».

Лян Веньфенґ усвідомив, що треба щось змінювати. Нещодавно він почав шукати способи надати компанії оцінку (valuation), а також дати членам команди більше визначених очікувань.

DeepSeek також більше вкладається в продукти. Ми систематизували всі оголошення про найм HR DeepSeek у соцмережах від грудня 2024 року до сьогодні. У найновішому оголошенні про найм у середині березня DeepSeek уперше згадує конкретні назви інших продуктів: вони наймають Agent-напрям «модел-стратегічного продакт-менеджера»:

постійно відстежувати передові тенденції в індустрії, знати й глибоко використовувати відомі agent-застосунки на кшталт Claude Code, OpenClaw, Manus тощо…

Далі, без сумніву, можна буде побачити більше дій DeepSeek щодо Agent-продуктів.

На початку 2025 року DeepSeek, з великодушним духом відкритого коду та чудом «малими силами — великий результат», потряс Китай і світ, і змінив світ: він змусив низку колег більше зосередитися на самій технології моделей, надихнув наступні моделі на кшталт Kimi K2 та K2-thinking, а також прямо породив деякі нові команди — зокрема MiroMind, який фінансував Чень Тяньцяо.

Чому це диво? Бо диво трапляється не часто — це подія з низькою ймовірністю. У середовищі Китаю, де шанують конкуренцію й судять за результатами, сам факт існування DeepSeek — компанії, яка наважується переслідувати унікальні цілі — уже є приємною подією з низькою ймовірністю.

Люди, які спілкувалися з Лян Веньфенґом, відгукуються так: «Він дуже стійкий до шумів».

Після того як R1 у 2025 році вибухово став популярним, Лян Веньфенґ показав спокій щодо піднесення й поклоніння. А тепер він стикається з іншим випробуванням: коли зовнішня конкуренція посилюється, треба відрізняти шум від сигналу, дотримуватися того, чого треба дотримуватися, і змінювати те, що треба змінювати.

«Людина, яка “опускає голову і робить справи”, може й не обов’язково посміхатися останньою в бурхливому ринку, де панує суєта, але якщо з’являтиметься більше компаній на кшталт DeepSeek, то у Китаю може з’явитися шанс перейти від “копіювання” до лідерства». Так сказав один із представників індустрії.

Це робота, що належить Лян Веньфенґу та DeepSeek. А тим, кого ця компанія колись “потрясла”, зробити можна дуже просто: зняти з себе драматичний наратив про сенсації, подивитися на компанію та інновації в технологіях із більш спокійним розумом.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.