a16z bài viết dài hàng vạn chữ: Tiếp theo của AI không nằm trong ngôn ngữ, mà ở thế giới vật lý—ba vòng quay của robot, khoa học tự trị, giao diện não bộ

Tác giả: Oliver Hsu (a16z)

Dịch: Deep潮 TechFlow

Deep潮 giới thiệu: Bài viết này của nhà nghiên cứu a16z Oliver Hsu là bản đồ đầu tư về “Trí tuệ nhân tạo vật lý” hệ thống nhất từ năm 2026 trở đi. Ông nhận định: tuyến chính của ngôn ngữ/mã vẫn đang mở rộng quy mô, nhưng thực sự có thể chạy ra khả năng đột phá thế hệ tiếp theo là ba lĩnh vực gần kề — robot tổng quát, khoa học tự chủ (nhà khoa học AI), giao diện não bộ và người máy mới. Tác giả phân tích năm khả năng nền tảng hỗ trợ chúng, và lập luận rằng ba chiến tuyến này sẽ hình thành một vòng quay cấu trúc thúc đẩy lẫn nhau. Đối với những ai muốn hiểu rõ logic đầu tư vào AI vật lý, đây là khung phân tích đầy đủ nhất hiện nay.

Hôm nay, mô hình AI chi phối chủ yếu dựa trên ngôn ngữ và mã. Luật mở rộng của các mô hình ngôn ngữ lớn đã được mô tả rõ ràng, vòng quay thương mại của dữ liệu, sức mạnh tính toán, cải tiến thuật toán đang vận hành, khả năng mỗi bước tiến đều mang lại lợi ích lớn, phần lớn trong số đó là rõ ràng thấy được. Mô hình này xứng đáng với lượng vốn và sự chú ý mà nó thu hút.

Nhưng các lĩnh vực lân cận khác đã bắt đầu có tiến bộ thực chất trong giai đoạn thai nghén. Bao gồm các mô hình robot tổng quát như VLA (mô hình thị giác-ngôn ngữ-hành động), WAM (mô hình hành động thế giới), các hướng về “nhà khoa học AI” trong lý luận vật lý và khoa học, cùng các giao diện mới để tương tác người-máy dựa trên tiến bộ AI (bao gồm giao diện não bộ và công nghệ thần kinh). Ngoài công nghệ, các hướng này đều bắt đầu thu hút nhân tài, vốn và nhà sáng lập. Ngôn ngữ nguyên thủy để mở rộng AI vào thế giới vật lý đang cùng lúc trưởng thành, tiến bộ trong 18 tháng qua cho thấy các lĩnh vực này sẽ sớm bước vào giai đoạn mở rộng quy mô riêng của chúng.

Trong bất kỳ mô hình công nghệ nào, nơi có khả năng lớn nhất giữa năng lực hiện tại và tiềm năng trung hạn thường có đặc điểm: một là có thể hưởng lợi từ cùng một vòng quay mở rộng quy mô thúc đẩy tuyến đầu hiện tại, hai là còn cách xa dòng chính một bước — gần đến mức có thể kế thừa hạ tầng và động lực nghiên cứu của nó, xa đến mức cần làm thêm các công việc thực chất. Khoảng cách này tự nó có hai tác dụng: tạo ra hàng rào bảo vệ cho các người theo sau nhanh, đồng thời cũng định hình một không gian vấn đề ít thông tin hơn, ít đông đúc hơn, từ đó dễ nảy sinh khả năng mới — chính vì chưa đi hết con đường tắt.

Chú thích hình: Mối quan hệ giữa mô hình AI hiện tại (ngôn ngữ/mã) và các hệ thống lân cận

Hiện nay, có ba lĩnh vực phù hợp với mô tả này: học robot, khoa học tự chủ (đặc biệt là trong lĩnh vực vật liệu và sinh học), và các giao diện mới cho tương tác người-máy (gồm giao diện não bộ, giọng nói không âm, cảm biến thần kinh đeo được, và các kênh cảm giác mới như khứu giác số). Chúng không hoàn toàn độc lập, mà thuộc cùng một nhóm “hệ thống tiên phong của thế giới vật lý”. Chúng chia sẻ một bộ nguyên thủy: biểu diễn học động lực vật lý, kiến trúc hướng tới hành động có thân thể, hạ tầng dữ liệu mô phỏng và tổng hợp, các kênh cảm giác mở rộng liên tục, và hệ thống điều phối trí tuệ vòng kín. Trong mối quan hệ phản hồi xuyên lĩnh vực, chúng thúc đẩy lẫn nhau. Đây cũng là nơi dễ nảy sinh khả năng đột phá — kết quả của sự tương tác giữa quy mô mô hình, khả năng ứng dụng vật lý, và dạng dữ liệu mới, tạo ra các sản phẩm đột phá.

Bài viết sẽ phân tích các nguyên thủy công nghệ hỗ trợ các hệ thống này, lý giải tại sao ba lĩnh vực này đại diện cho cơ hội tiên phong, và đề xuất rằng sự thúc đẩy lẫn nhau của chúng tạo thành một vòng quay cấu trúc đẩy AI hướng tới thế giới vật lý.

Năm nguyên thủy nền tảng

Trước khi đi vào các ứng dụng cụ thể, cần hiểu các nền tảng công nghệ chung của các hệ thống này. Để thúc đẩy AI tiến vào thế giới vật lý, dựa vào năm nguyên thủy chính. Những công nghệ này không thuộc riêng bất kỳ lĩnh vực ứng dụng nào, mà là các thành phần — giúp tạo ra hệ thống “mở rộng AI vào thế giới vật lý”. Sự trưởng thành đồng bộ của chúng chính là lý do đặc biệt của thời điểm này.

Chú thích hình: Năm nguyên thủy nền tảng hỗ trợ AI vật lý

Nguyên thủy 1: Biểu diễn học động lực vật lý

Nguyên thủy cơ bản nhất là khả năng học ra một bộ biểu diễn hành vi vật lý chung, nén gọn: cách các vật thể di chuyển, biến dạng, va chạm, phản ứng dưới tác dụng lực. Không có lớp này, mỗi hệ thống AI vật lý đều phải bắt đầu từ con số không, học quy luật vật lý của riêng lĩnh vực — điều này không thể gánh nổi chi phí.

Nhiều hướng kiến trúc đang tiếp cận mục tiêu này từ các hướng khác nhau. Mô hình VLA bắt đầu từ trên cao: dùng mô hình thị giác-ngôn ngữ đã được huấn luyện trước — loại mô hình đã có khả năng hiểu ý nghĩa về vật thể, quan hệ không gian và ngôn ngữ — rồi thêm bộ giải mã hành động để xuất ra lệnh điều khiển chuyển động. Điểm mấu chốt là, chi phí lớn để “nhìn” và “hiểu thế giới” có thể được giảm bớt nhờ huấn luyện trước quy mô lớn qua internet về hình ảnh và ngôn ngữ. Physical Intelligence của π₀, Google DeepMind’s Gemini Robotics, Nvidia’s GR00T N1 đều đã xác nhận kiến trúc này trên quy mô ngày càng lớn.

Mô hình WAM thì bắt đầu từ dưới lên: dựa trên Transformer mở rộng video dựa trên diffusion, đã được huấn luyện trên video quy mô internet, thừa hưởng các tiền đề phong phú về động lực vật lý (như cách vật thể rơi, bị che khuất, tương tác dưới tác dụng lực), rồi kết hợp các tiền đề này với sinh dữ liệu hành động. Nvidia’s DreamZero thể hiện khả năng tổng quát không mẫu mực trên các nhiệm vụ và môi trường mới, dùng ít dữ liệu thích ứng để chuyển đổi qua các thể loại vật thể, nâng cao khả năng tổng quát trong thế giới thực.

Lộ trình thứ ba có thể là hướng đi gợi ý rõ ràng nhất cho tương lai, bỏ qua toàn bộ bước tiền huấn luyện VLM và diffusion video. GEN-1 của Generalist là một mô hình nền có thân thể, huấn luyện từ đầu dựa trên hơn 500.000 giờ dữ liệu tương tác vật lý thực, chủ yếu thu thập qua thiết bị đeo giá rẻ từ người thực hiện các tác vụ hàng ngày. Nó không phải VLA tiêu chuẩn (không có backbone thị giác-ngôn ngữ đã được tinh chỉnh), cũng không phải WAM. Nó là mô hình nền thiết kế riêng cho tương tác vật lý, học không phải từ dữ liệu hình ảnh, văn bản hay video internet, mà từ các quy luật thống kê về tiếp xúc giữa người và vật thể.

Các công ty như World Labs làm về trí tuệ không gian, đối với nguyên thủy này rất có giá trị, vì nó bổ sung điểm yếu chung của VLA, WAM và mô hình có thân thể nguyên thủy: cả ba đều không mô hình rõ ràng cấu trúc 3D của cảnh vật. VLA kế thừa đặc trưng 2D từ huấn luyện hình ảnh-ngôn ngữ; WAM học động lực từ video, vốn là dựa trên hình chiếu 3D của không gian 2D; các mô hình học từ cảm biến đeo có thể bắt được lực và kinematic, nhưng không thể nắm bắt hình dạng không gian. Mô hình trí tuệ không gian có thể giúp bù đắp phần này — học cách tái tạo, sinh ra toàn bộ cấu trúc 3D của môi trường vật lý và suy luận về nó: hình học, chiếu sáng, che khuất, quan hệ vật thể, bố cục không gian.

Việc các hướng này hội tụ chính là điểm mấu chốt. Dù biểu diễn học từ VLM, học từ huấn luyện phối hợp video, hay xây dựng nguyên thủy từ dữ liệu tương tác vật lý, thì nguyên thủy chung đều là: mô hình hành vi vật lý nén gọn, có thể chuyển đổi. Các dữ liệu để huấn luyện các biểu diễn này rất lớn, phần lớn vẫn chưa được khai thác — không chỉ video internet và các đường đi của robot, mà còn lượng dữ liệu trải nghiệm cơ thể con người đang bắt đầu thu thập quy mô lớn. Một bộ biểu diễn chung này có thể phục vụ cả robot học xếp khăn, phòng thí nghiệm tự chủ dự đoán phản ứng, hay hệ thống giải mã thần kinh đọc ý định nắm bắt.

Nguyên thủy 2: Kiến trúc hướng tới hành động có thân thể

Chỉ có biểu diễn vật lý chưa đủ. Để “hiểu” thành hành động vật lý đáng tin cậy, cần kiến trúc giải quyết một số vấn đề liên quan: ánh xạ ý định cao cấp thành chuỗi lệnh điều khiển liên tục, duy trì tính nhất quán trong chuỗi hành động dài, vận hành trong giới hạn độ trễ thời gian thực, và liên tục nâng cao qua kinh nghiệm.

Kiến trúc phân tầng hai hệ thống đã trở thành tiêu chuẩn cho các nhiệm vụ có thân thể phức tạp: mô hình thị giác-ngôn ngữ chậm mà mạnh đảm nhận hiểu cảnh và suy luận nhiệm vụ (Hệ thống 2), kết hợp với một chiến lược điều khiển thị giác-hành động nhanh, nhẹ (Hệ thống 1). GR00T N1, Gemini Robotics, Helix của Figure đều theo hướng này, giải quyết xung đột căn bản giữa “mô hình lớn cung cấp suy luận phong phú” và “nhiệm vụ vật lý yêu cầu điều khiển theo mili giây”. Generalist thì theo hướng khác, dùng “suy luận cộng hưởng” để đồng thời nghĩ và hành động.

Cơ chế sinh hành động cũng đang tiến bộ nhanh. π₀ mở đầu bằng phương pháp dựa trên matching luồng và diffusion, đã trở thành phương pháp chủ đạo để sinh ra các hành động mượt mà, liên tục, tần số cao, thay thế tokenization rời rạc lấy từ mô hình ngôn ngữ. Các phương pháp này coi sinh hành động như một quá trình loại bỏ nhiễu giống như tổng hợp hình ảnh, kết quả là đường đi vật lý mượt mà hơn, ổn định hơn trước sai số tích tụ, vượt trội so với dự đoán theo chuỗi tự hồi quy.

Tuy nhiên, tiến bộ quan trọng nhất về kiến trúc có thể là mở rộng học tăng cường (RL) lên mô hình nền VLA đã huấn luyện — một mô hình nền dựa trên dữ liệu mẫu, có thể tự luyện tập để nâng cao, giống như con người qua luyện tập và tự sửa chữa. Công trình của Physical Intelligence, π*₀.₆, là minh chứng rõ ràng nhất cho nguyên tắc này. Phương pháp của họ gọi là RECAP (học tăng cường dựa trên chiến lược ưu thế, kinh nghiệm và sửa đổi), giải quyết vấn đề phân phối tín dụng dài hạn mà chỉ học theo mô phỏng không thể làm được. Nếu robot nắm tay máy pha cà phê espresso hơi lệch góc, thất bại không xuất hiện ngay, mà có thể đến vài bước sau mới lộ ra khi đưa vào. Học theo mô phỏng không có cơ chế phân bổ tín dụng cho lần thất bại đó về các lần nắm trước, RL thì có. RECAP huấn luyện một hàm giá trị, ước lượng xác suất thành công từ trạng thái trung gian, rồi để VLA chọn hành động có lợi thế cao. Điểm mấu chốt là, nó tích hợp nhiều loại dữ liệu khác nhau — dữ liệu mẫu, kinh nghiệm tự luyện, sửa đổi từ thao tác từ xa của chuyên gia — vào cùng một quy trình huấn luyện.

Phương pháp này mang lại triển vọng tích cực cho RL trong lĩnh vực hành động. π*₀.₆ có thể xếp chồng 50 loại quần áo chưa từng thấy trong môi trường gia đình thực, lắp ráp hộp giấy đáng tin cậy, pha cà phê espresso trên máy chuyên nghiệp, liên tục vài giờ mà không cần người can thiệp. Trong các nhiệm vụ khó nhất, RECAP gấp đôi hoặc hơn khả năng của mô hình mô phỏng thuần túy, giảm hơn một nửa tỷ lệ thất bại. Hệ thống còn chứng minh rằng, sau huấn luyện RL, có thể tạo ra các hành vi đột phá mà mô phỏng không thể đạt được: hành động phục hồi mượt mà hơn, chiến lược nắm bắt hiệu quả hơn, sửa lỗi tự thích nghi mà trong dữ liệu mẫu không có.

Những lợi ích này cho thấy một điều: sức mạnh tính toán mở rộng từ GPT-2 lên GPT-4 đang bắt đầu vận hành trong lĩnh vực có thân thể — chỉ là hiện tại còn ở giai đoạn sớm hơn, không gian hành động liên tục, chiều cao chiều rộng lớn, và phải đối mặt với các giới hạn khắc nghiệt của thế giới vật lý.

Nguyên thủy 3: Hạ tầng mô phỏng và dữ liệu tổng hợp để mở rộng quy mô

Trong lĩnh vực ngôn ngữ, vấn đề dữ liệu đã được giải quyết bởi internet: hàng nghìn tỷ token văn bản tự nhiên sinh ra miễn phí. Trong thế giới vật lý, vấn đề này còn phức tạp hơn nhiều — và đã trở thành điều chung nhận thức, minh chứng rõ nhất là các startup cung cấp dữ liệu vật lý đang tăng nhanh. Việc thu thập dữ liệu đường đi robot thực tế tốn kém, quy mô lớn có rủi ro, đa dạng hạn chế. Một mô hình ngôn ngữ có thể học từ hàng tỷ cuộc đối thoại, còn robot (tạm thời) chưa thể có hàng tỷ tương tác vật lý.

Sinh dữ liệu mô phỏng và tổng hợp là hạ tầng nền tảng để giải quyết hạn chế này, và sự trưởng thành của chúng là một trong những lý do chính khiến AI vật lý ngày nay phát triển nhanh hơn năm năm trước.

Hệ thống mô phỏng hiện đại kết hợp các engine mô phỏng dựa trên vật lý, render ảnh theo tỷ lệ ảnh-phân giải cao dựa trên theo dõi tia sáng, tạo môi trường theo chương trình, và các mô hình thế giới sinh ra từ đầu vào mô phỏng — phần sau giúp thu hẹp khoảng cách sim-to-real. Chuỗi này bắt đầu từ tái tạo thần kinh môi trường thực (chỉ cần một chiếc điện thoại là đủ), điền đầy tài sản 3D chính xác về vật lý, rồi sinh dữ liệu tổng hợp quy mô lớn có chú thích tự động.

Ý nghĩa của cải tiến hệ thống mô phỏng là thay đổi giả định kinh tế của AI vật lý. Nếu giới hạn của AI vật lý chuyển từ “thu thập dữ liệu thực” sang “thiết kế môi trường ảo đa dạng”, chi phí sẽ giảm mạnh. Mô phỏng mở rộng theo sức mạnh tính toán, không dựa vào nhân lực hay phần cứng vật lý. Điều này tương tự như cách dữ liệu văn bản internet đã thay đổi cấu trúc đào tạo mô hình ngôn ngữ — đầu tư vào hạ tầng mô phỏng sẽ tạo ra đòn bẩy lớn cho toàn bộ hệ sinh thái.

Nhưng mô phỏng không chỉ dành cho nguyên thủy robot. Cùng một hạ tầng này phục vụ cho khoa học tự chủ (mô phỏng thiết bị phòng thí nghiệm, phản ứng giả thuyết), các giao diện mới (mô phỏng thần kinh để huấn luyện giải mã BCI, dữ liệu cảm giác tổng hợp để hiệu chỉnh cảm biến mới), và các lĩnh vực khác liên quan đến tương tác AI và thế giới vật lý. Mô phỏng chính là động lực dữ liệu chung của AI vật lý.

Nguyên thủy 4: Mở rộng các kênh cảm giác

Thông tin truyền trong thế giới vật lý phong phú hơn nhiều so với hình ảnh và ngôn ngữ. Cảm giác chạm truyền đặc tính vật liệu, độ ổn định của nắm, hình dạng tiếp xúc — những thông tin camera không thể thấy. Tín hiệu thần kinh mã hóa ý định vận động, trạng thái nhận thức, trải nghiệm cảm giác với băng thông cao hơn nhiều so với các giao diện người-máy hiện có. Hoạt động của cơ dưới dây thanh âm đã mã hóa ý định nói trước khi phát ra âm thanh. Nguyên thủy thứ tư là khả năng mở rộng nhanh các kênh cảm giác này của AI — không chỉ từ nghiên cứu, mà còn từ toàn bộ hệ sinh thái xây dựng thiết bị tiêu dùng, phần mềm và hạ tầng.

Chú thích hình: Các kênh cảm giác AI đang mở rộng, từ AR, EMG đến giao diện não bộ

Chỉ số rõ ràng nhất là sự xuất hiện của các thiết bị mới. Thiết bị AR gần đây đã cải thiện rõ rệt trải nghiệm và hình dạng (đã có công ty ứng dụng trong tiêu dùng và công nghiệp); các thiết bị đeo ưu tiên giọng nói giúp AI ngôn ngữ có bối cảnh vật lý đầy đủ hơn — thực sự theo sát người dùng vào môi trường vật lý. Trong dài hạn, các giao diện thần kinh có thể mở ra các mô thức tương tác toàn diện hơn. Cách tính toán do AI mang lại tạo ra cơ hội nâng cấp lớn cho tương tác người-máy, các công ty như Sesame đang phát triển các mô thức và thiết bị mới.

Giọng nói, như một kênh tương tác phổ biến hơn, cũng tạo điều kiện cho các phương thức tương tác mới. Các sản phẩm như Wispr Flow đẩy mạnh giọng nói thành phương thức nhập chính (vì có mật độ thông tin cao, lợi thế tự nhiên), thị trường cho giao diện giọng nói không âm cũng mở rộng. Thiết bị nhận dạng giọng nói không âm dùng cảm biến để bắt hoạt động của lưỡi và dây thanh, nhận dạng ngôn ngữ mà không cần phát ra âm thanh — đây là một mô thức tương tác người-máy có mật độ thông tin cao hơn.

Giao diện não bộ (có xâm lấn và không xâm lấn) là lĩnh vực tiên phong sâu hơn, với hệ sinh thái thương mại liên tục tiến bộ. Tín hiệu sẽ xuất hiện trong các chứng minh lâm sàng, phê duyệt pháp lý, tích hợp nền tảng, vốn đầu tư tổ chức — và đây là lĩnh vực từng chỉ thuộc về nghiên cứu học thuật vài năm trước.

Cảm giác chạm đang trở thành phần của kiến trúc AI có thân thể, một số mô hình trong học robot bắt đầu coi cảm giác chạm là thành phần quan trọng rõ rệt. Giao diện khứu giác đang trở thành sản phẩm kỹ thuật thực sự: thiết bị đeo cảm biến mùi với bộ phát khí nhỏ, phản hồi mili giây, đã được trình diễn trong ứng dụng thực tế hỗn hợp; mô hình khứu giác bắt đầu ghép nối với hệ thống AI thị giác, dùng để giám sát quá trình hóa học.

Các phát triển này đều có quy luật chung: chúng sẽ hội tụ về giới hạn. Kính AR liên tục tạo ra dữ liệu tương tác thị giác và không gian của người dùng và môi trường; cảm biến EMG bắt được quy luật ý định vận động của con người; giao diện giọng nói không âm bắt được chuyển động của dây thanh và chuyển thành ngôn ngữ; giao diện BCI hiện có độ phân giải cao nhất bắt được hoạt động thần kinh; cảm biến cảm giác chạm bắt dữ liệu về lực tác động trong thao tác vật lý. Mỗi thiết bị mới là một nền tảng tạo dữ liệu, nuôi dưỡng các mô hình trong nhiều lĩnh vực ứng dụng. Một robot dựa trên dữ liệu EMG để suy luận ý định vận động, khác với robot chỉ dựa vào dữ liệu điều khiển từ xa, sẽ học các chiến lược nắm khác nhau; một hệ thống phản hồi theo lệnh dây thanh, khác hoàn toàn hệ thống điều khiển bàn phím; một giải mã thần kinh dựa trên dữ liệu BCI mật độ cao sẽ tạo ra các biểu diễn lập kế hoạch vận động mà các kênh khác không thể có.

Việc lan tỏa các thiết bị này mở rộng không gian dữ liệu cho các hệ thống AI vật lý tiên tiến — phần lớn do các công ty tiêu dùng có vốn lớn thúc đẩy, không chỉ từ phòng thí nghiệm. Điều này có nghĩa vòng quay dữ liệu sẽ cùng với sự chấp nhận của thị trường mở rộng.

Nguyên thủy 5: Hệ thống trí tuệ vòng kín

Cuối cùng, nguyên thủy này thiên về kiến trúc hơn. Nó đề cập đến việc tích hợp cảm nhận, suy luận, điều phối hành động thành hệ thống liên tục, tự chủ, vòng kín vận hành trong thời gian dài mà không cần can thiệp.

Trong mô hình ngôn ngữ, sự phát triển tương ứng là sự xuất hiện của hệ thống trí tuệ tự chủ — chuỗi suy luận nhiều bước, sử dụng công cụ, tự sửa lỗi, đưa mô hình từ công cụ hỏi đáp đơn lẻ thành người giải quyết vấn đề tự chủ. Trong thế giới vật lý, sự chuyển đổi này cũng đang diễn ra, chỉ khác ở mức độ khắt khe hơn nhiều. Một hệ thống trí tuệ vật lý sai có thể quay lại bước trước mà không tốn phí; còn một hệ thống vật lý sai có thể gây hậu quả nghiêm trọng, không thể quay lại.

Các đặc điểm phân biệt hệ thống trí tuệ vật lý so với số là: thứ nhất, cần tích hợp vào các thí nghiệm hoặc vận hành vòng kín — kết nối trực tiếp với dữ liệu cảm biến, trạng thái vật lý, nguyên thủy hành động, để suy luận dựa trên thực tế vật lý, chứ không chỉ dựa trên mô tả bằng lời. Thứ hai, cần có tính duy trì dài hạn: ghi nhớ, truy vết, giám sát an toàn, phục hồi hành vi — kết nối nhiều chu kỳ vận hành, không xem mỗi nhiệm vụ như một đoạn riêng biệt. Thứ ba, cần thích ứng vòng kín: dựa trên kết quả vật lý để điều chỉnh chiến lược, chứ không chỉ dựa vào phản hồi bằng lời.

Nguyên thủy này hợp nhất các khả năng riêng biệt (mô hình thế giới tốt, kiến trúc hành động đáng tin cậy, cảm biến phong phú) thành hệ thống hoàn chỉnh vận hành tự chủ trong thế giới vật lý. Đây là tầng tích hợp, sự trưởng thành của nó là điều kiện để ba lĩnh vực ứng dụng phía dưới có thể triển khai thực tế trong thế giới vật lý, chứ không chỉ là nghiên cứu trình diễn.

Ba lĩnh vực

Các nguyên thủy trên là các nền tảng chung, không quy định rõ lĩnh vực ứng dụng quan trọng nhất sẽ nằm ở đâu. Nhiều lĩnh vực liên quan đến hành động vật lý, đo lường vật lý hoặc cảm nhận vật lý. Sự khác biệt giữa “hệ thống tiên phong” và “hệ thống cải tiến hiện có” nằm ở mức độ cộng sinh của khả năng mô hình và hạ tầng mở rộng — không chỉ là hiệu năng tốt hơn, mà còn là khả năng xuất hiện các khả năng mới chưa từng có trước đây.

Robot, khoa học tự chủ dựa trên AI, và các giao diện mới cho tương tác người-máy là ba lĩnh vực có hiệu ứng cộng sinh mạnh nhất. Mỗi lĩnh vực đều kết hợp các nguyên thủy theo cách riêng, đều bị giới hạn bởi các nguyên thủy hiện tại, và đều tạo ra các dạng dữ liệu vật lý có cấu trúc — dữ liệu này lại giúp các nguyên thủy trở nên tốt hơn, tạo thành vòng phản hồi thúc đẩy hệ thống phát triển nhanh hơn. Không phải là các lĩnh vực AI vật lý duy nhất đáng chú ý, nhưng đây là những nơi khả năng AI tiên phong và tương tác với thực tế vật lý dày đặc nhất, cũng là những nơi xa nhất dòng chính về mô hình ngôn ngữ/mã, mở ra không gian khả năng đột phá lớn nhất — đồng thời cũng rất phù hợp để hưởng lợi từ các nguyên thủy này.

Robot

Robot là biểu hiện rõ ràng nhất của AI vật lý: một hệ thống AI cần cảm nhận, suy luận, và tác động vật lý vào thế giới vật chất theo thời gian thực. Nó cũng là thử thách lớn nhất cho các nguyên thủy.

Hãy tưởng tượng một robot đa năng cần làm gì để xếp một chiếc khăn. Nó cần biểu diễn học về cách vật thể biến dạng dưới tác dụng lực — một tiền đề vật lý mà không thể có từ huấn luyện ngôn ngữ. Nó cần kiến trúc điều khiển chuyển động liên tục trên 20Hz để dịch ý định cao cấp thành lệnh điều khiển. Nó cần dữ liệu huấn luyện sinh từ mô phỏng, vì chưa ai thu thập hàng triệu lần trình diễn xếp khăn thực tế. Nó cần phản hồi cảm giác chạm để phát hiện trượt, điều chỉnh lực nắm, vì thị giác không thể phân biệt rõ giữa nắm chắc và thất bại. Nó còn cần bộ điều khiển vòng kín để nhận biết lỗi khi xếp sai, và tự phục hồi, chứ không chỉ thực thi theo ký ức.

Chú thích hình: Các nhiệm vụ của robot đồng thời gọi các nguyên thủy nền tảng

Đây chính là lý do vì sao robot là hệ thống tiên phong, chứ không chỉ là lĩnh vực kỹ thuật đã trưởng thành hơn. Các nguyên thủy này không chỉ là nâng cấp khả năng robot hiện tại, mà mở ra các loại thao tác, vận động, tương tác chưa từng làm được ngoài các môi trường công nghiệp hạn chế.

Trong vài năm gần đây, tiến bộ vượt bậc đã rõ rệt — chúng tôi đã đề cập trước đó. Thế hệ VLA đầu tiên chứng minh mô hình nền có thể điều khiển robot thực hiện nhiều nhiệm vụ khác nhau. Tiến bộ về kiến trúc giúp kết nối suy luận cao cấp và điều khiển thấp cấp của robot. Suy luận tại chỗ trở nên khả thi, khả năng chuyển đổi qua các thể loại robot khác nhau với ít dữ liệu hơn. Thách thức còn lại là độ tin cậy mở rộng quy mô, vẫn là giới hạn của triển khai thực tế. Mức thành công 95% mỗi bước, chỉ đạt 60% trong chuỗi 10 bước, yêu cầu cao hơn nhiều trong môi trường sản xuất. Học tăng cường sau huấn luyện (RL) có tiềm năng giúp vượt qua giới hạn này, nâng cao khả năng và độ bền của hệ thống.

Các tiến bộ này ảnh hưởng đến cấu trúc thị trường. Giá trị của ngành robot đã tích tụ trong các hệ thống cơ khí suốt nhiều thập kỷ, phần cứng vẫn là phần quan trọng của hệ công nghệ, nhưng khi các chiến lược học trở nên chuẩn hóa hơn, giá trị sẽ dịch chuyển sang mô hình, hạ tầng huấn luyện, vòng dữ liệu. Robot cũng thúc đẩy các nguyên thủy: mỗi đường đi thực tế là dữ liệu huấn luyện để cải thiện mô hình thế giới, mỗi lần thất bại lộ ra các thiếu sót của mô phỏng, mỗi thử nghiệm mới mở rộng đa dạng dữ liệu vật lý để huấn luyện trước. Robot vừa là khách hàng khắt khe nhất của các nguyên thủy, vừa là nguồn tín hiệu cải tiến quan trọng nhất.

Khoa học tự chủ

Nếu robot là dùng “hành động vật lý thời gian thực” để kiểm nghiệm nguyên thủy, thì khoa học tự chủ thử thách khả năng suy luận liên tục nhiều bước về các hệ thống vật lý phức tạp — với chu kỳ kéo dài giờ hoặc ngày, kết quả thí nghiệm cần được giải thích, đặt trong bối cảnh, và dùng để điều chỉnh chiến lược.

Chú thích hình: Cách thức tích hợp năm nguyên thủy của khoa học tự chủ (nhà khoa học AI)

Khoa học dựa trên AI là lĩnh vực tích hợp nguyên thủy sâu nhất. Một phòng thí nghiệm tự lái (self-driving lab, SDL) cần biểu diễn động lực vật lý-hóa học để dự đoán kết quả thí nghiệm; cần hành động có thân thể để chuyển mẫu, định vị thiết bị phân tích; cần mô phỏng để chọn lọc các thí nghiệm dự kiến, phân bổ thời gian thiết bị hiếm; cần mở rộng cảm biến — quang phổ, sắc ký, khối phổ, và các cảm biến hóa sinh mới — để mô tả kết quả. Nó đòi hỏi vòng lặp hệ thống tự chủ cao, có thể duy trì “giả thuyết-thí nghiệm- phân tích-điều chỉnh” nhiều vòng liên tiếp mà không cần can thiệp con người, đồng thời giữ được tính truy vết, giám sát an toàn, và điều chỉnh chiến lược dựa trên thông tin từng vòng.

Chưa có lĩnh vực nào gọi được các nguyên thủy này nhiều như vậy. Đó chính là lý do tại sao khoa học tự chủ là hệ thống tiên phong, chứ không chỉ là tự động hóa phòng thí nghiệm tốt hơn. Các công ty như Periodic Labs, Medra tích hợp khả năng lý luận khoa học và xác nhận vật lý, tạo ra các vòng lặp tiến trình khoa học, đồng thời tạo ra dữ liệu huấn luyện thí nghiệm.

Giá trị của các hệ thống này rõ ràng theo trực giác. Phát hiện vật liệu truyền thống mất nhiều năm từ ý tưởng đến thương mại, nhưng AI có thể rút ngắn quá trình này đáng kể. Thách thức chính chuyển từ tạo giả thuyết (mô hình nền đã hỗ trợ tốt) sang chế tạo và xác nhận (cần thiết bị vật lý, robot thực thi, tối ưu vòng kín). SDL chính là hướng tới giới hạn này.

Một đặc điểm quan trọng khác của khoa học tự chủ — và cũng đúng với tất cả hệ thống thế giới vật lý — là vai trò của nó như một động lực dữ liệu. Mỗi thí nghiệm của SDL không chỉ ra kết quả khoa học, mà còn là tín hiệu huấn luyện đã được xác nhận, có thể ứng dụng vào mô hình thế giới. Một đo lường về cách kết tinh của polymer trong điều kiện nhất định, làm giàu mô hình về động lực vật liệu; một đường dẫn tổng hợp đã được xác nhận, trở thành dữ liệu huấn luyện lý luận; một thất bại đã được mô tả, giúp hệ thống AI biết điểm yếu của dự đoán. Dữ liệu từ nhà khoa học AI thực hiện thí nghiệm khác biệt rõ rệt so với dữ liệu từ internet hay mô phỏng — nó mang tính cấu trúc, nhân quả, đã được xác nhận thực nghiệm. Đây chính là loại dữ liệu mà các mô hình lý luận vật lý cần nhất, mà không nguồn nào khác có thể cung cấp. Khoa học tự chủ chính là chuyển đổi thực tế vật lý thành kiến thức có cấu trúc, nâng cao toàn bộ hệ sinh thái AI vật lý.

Giao diện mới

Robot mở rộng AI vào hành động vật lý, khoa học tự chủ mở rộng AI vào nghiên cứu vật lý, thì các giao diện mới mở rộng nó vào cảm nhận, trải nghiệm cảm giác, tín hiệu cơ thể — từ AR, EMG đến giao diện não bộ cấy ghép. Không phải công nghệ đơn lẻ, mà là chức năng chung: mở rộng băng thông và mô hình của kênh liên lạc giữa con người và AI — đồng thời tạo ra dữ liệu tương tác người-thế giới trực tiếp để xây dựng hệ thống AI vật lý.

Chú thích hình: Các dạng giao diện mới từ AR đến giao diện não bộ

Khoảng cách so với dòng chính là thách thức và cũng là tiềm năng của lĩnh vực này. Mô hình ngôn ngữ hiểu các mô thức này về khái niệm, nhưng không tự nhiên quen thuộc với các mẫu vận động không âm của giọng nói, cấu trúc hình học của receptor khứu giác, hay động lực thời gian của tín hiệu EMG. Việc giải mã các tín hiệu này phải học từ các kênh cảm giác đang mở rộng. Nhiều mô thức không có dữ liệu huấn luyện quy mô internet, dữ liệu thường chỉ sinh ra từ chính các giao diện — nghĩa là hệ thống và dữ liệu huấn luyện cùng tiến hóa, điều này không có trong mô hình ngôn ngữ.

Lĩnh vực này gần đây nổi bật với sự phát triển nhanh của các thiết bị đeo AI tiêu dùng. AR là ví dụ rõ ràng nhất, các thiết bị đeo dựa trên giọng nói hoặc thị giác cũng đang xuất hiện đồng thời.

Hệ sinh thái thiết bị tiêu dùng này không chỉ cung cấp nền tảng phần cứng mới để AI mở rộng vào thế giới vật lý, mà còn trở thành hạ tầng dữ liệu vật lý. Người đeo kính AR có thể liên tục tạo ra các video đầu vào về cách con người điều hướng, thao tác vật thể, tương tác với thế giới; các cảm biến sinh học và vận động khác liên tục thu thập dữ liệu. Số lượng thiết bị đeo AI đang trở thành một mạng lưới phân tán dữ liệu thế giới vật lý, ghi lại trải nghiệm vật lý của con người với quy mô chưa từng có. Nghĩ đến quy mô của điện thoại thông minh như một thiết bị tiêu dùng — một dạng thiết bị tiêu dùng mới cho phép máy tính cảm nhận thế giới bằng các mô thức mới, mở ra một kênh tương tác lớn cho AI và thế giới vật lý.

Giao diện não bộ (có xâm lấn và không xâm lấn) là lĩnh vực sâu hơn. Neuralink đã cấy ghép cho nhiều bệnh nhân, robot phẫu thuật và phần mềm giải mã đang trong quá trình hoàn thiện. Synchron đã dùng Stentrode nội mạch để giúp người liệt kiểm soát môi trường số và vật lý. Echo Neurotechnologies phát triển hệ thống BCI cho phục hồi ngôn ngữ, dựa trên nghiên cứu giải mã tiếng nói vỏ não độ phân giải cao. Các công ty mới như Nudge cũng đang tập hợp nhân tài và vốn để phát triển các giao diện thần kinh và nền tảng tương tác não mới. Các bước tiến công nghệ trong nghiên cứu đáng chú ý gồm: chip BISC với 65.536 điện cực ghi thần kinh không dây trên một chip; nhóm BrainGate giải mã trực tiếp từ vỏ vận động các ngôn ngữ nội tại.

Dòng chảy xuyên suốt từ kính AR, thiết bị đeo AI, thiết bị giọng nói không âm, đến giao diện não bộ không chỉ là “chúng đều là giao diện”, mà còn tạo thành một phổ băng thông ngày càng mở rộng giữa trải nghiệm cảm giác của con người và hệ thống AI — mỗi điểm trên phổ này đều thúc đẩy các nguyên thủy chính của bài viết tiến bộ liên tục. Một robot huấn luyện bằng video đầu người chất lượng cao từ hàng triệu người dùng kính AI khác hẳn với robot huấn luyện bằng dữ liệu điều khiển từ xa đã qua chọn lọc; một AI phòng thí nghiệm phản hồi theo lệnh dây thanh, khác hoàn toàn với hệ thống điều khiển bàn phím; một giải mã thần kinh dựa trên dữ liệu BCI mật độ cao tạo ra biểu diễn lập kế hoạch vận động mà các kênh khác không thể có.

Việc mở rộng các thiết bị này đang nâng cao khả năng dữ liệu của các hệ thống AI vật lý tiên tiến — phần lớn do các công ty tiêu dùng vốn lớn thúc đẩy, không chỉ từ phòng thí nghiệm. Điều này có nghĩa vòng quay dữ liệu sẽ cùng với sự chấp nhận của thị trường mở rộng.

Hệ thống thế giới vật lý

Xem robot, khoa học tự chủ, và giao diện mới như các ví dụ khác nhau của cùng một nguyên thủy cấu thành hệ thống tiên phong, bởi vì chúng thúc đẩy lẫn nhau và tạo ra hiệu ứng cộng sinh.

Chú thích hình: Vòng phản hồi thúc đẩy lẫn nhau giữa robot, khoa học tự chủ, và giao diện mới

Robot thúc đẩy khoa học tự chủ. Phòng thí nghiệm tự lái về cơ bản chính là hệ thống robot. Các khả năng thao tác cho robot tổng quát — nắm linh hoạt, xử lý chất lỏng, định vị chính xác, thực hiện các nhiệm vụ nhiều bước — có thể chuyển trực tiếp sang tự động hóa phòng thí nghiệm. Mô hình robot càng linh hoạt và bền bỉ, SDL càng tự chủ thực hiện các quy trình thí nghiệm rộng hơn. Mỗi tiến bộ của robot đều giảm chi phí tự chủ thí nghiệm, tăng năng suất.

Khoa học tự chủ thúc đẩy robot. Dữ liệu khoa học từ các thí nghiệm tự lái — các phép đo vật lý đã xác nhận, kết quả thí nghiệm nhân quả, cơ sở dữ liệu thuộc tính vật liệu — cung cấp dữ liệu huấn luyện dạng cấu trúc, thực tế, cần thiết cho mô hình thế giới và hệ thống lý luận vật lý. Hơn nữa, các vật liệu và thiết bị mới mà robot cần (

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim