AIGC đổi mới sáng tạo nội dung: Công cụ năng suất trong thời đại Web3 sẽ thay đổi cục diện ngành công nghiệp

Từ cuối năm 2022, các tổ chức đầu tư mạo hiểm hàng đầu tại Thung lũng Silicon đã lần lượt chuyển hướng chú ý sang các doanh nghiệp khởi nghiệp về trí tuệ nhân tạo, trong đó lĩnh vực nghệ thuật AI tạo sinh đặc biệt sôi động. Stability AI và Jasper lần lượt hoàn thành các vòng gọi vốn trị giá hàng trăm triệu USD, định giá đều vượt mốc 1 tỷ USD, chính thức gia nhập hàng ngũ kỳ lân. Đà bùng nổ huy động vốn này xuất phát từ logic sâu xa của AIGC (Nội dung do AI tạo ra - AI-Generated Content) như một bước chuyển đổi mô hình mới.

AIGC không chỉ là thành quả của tiến bộ công nghệ, mà còn là cuộc cách mạng trong phương thức sản xuất nội dung. Cùng với sự xuất hiện của thời đại Web3, sự kết hợp giữa trí tuệ nhân tạo, dữ liệu liên quan và mạng ngữ nghĩa đã tạo ra liên kết mới giữa con người và mạng lưới, thúc đẩy nhu cầu tiêu thụ nội dung bùng nổ. Các hình thức PGC (Nội dung chuyên nghiệp tạo ra) và UGC (Nội dung do người dùng tạo ra) truyền thống đã không còn đủ khả năng đáp ứng quy mô mở rộng này, vì vậy AIGC trở thành công cụ năng suất mới trong thời đại Web3, cung cấp giải pháp cho việc tạo ra quy mô lớn nội dung metaverse.

Sự trỗi dậy của thị trường AIGC: Từ biên giới đến chính thống

Xét về mặt tiến bộ công nghệ và ứng dụng thương mại, lý do khiến AIGC thu hút nhiều vốn trong thời gian ngắn là ba yếu tố cốt lõi: Thứ nhất, đột phá trong thuật toán nền tảng và phần cứng; Thứ hai, sự trưởng thành nhanh chóng của các ứng dụng trong nhiều lĩnh vực dọc; Thứ ba, chính lĩnh vực này vẫn còn trong giai đoạn sơ khai, mặc dù các công ty công nghệ lớn đã chiếm một phần giá trị, các doanh nghiệp khởi nghiệp vẫn còn cơ hội đột phá.

Về mặt ứng dụng, AIGC đã thể hiện tiềm năng đa hướng. Trong lĩnh vực tạo văn bản, Jasper giúp người dùng sáng tạo tiêu đề Instagram, kịch bản TikTok, nội dung quảng cáo và email nhờ chức năng sinh văn bản AI. Tính đến thời điểm báo cáo, Jasper đã có hơn 70.000 khách hàng, bao gồm các ông lớn như Airbnb và IBM, doanh thu trong năm 2022 đã đạt 40 triệu USD.

Trong lĩnh vực tạo hình ảnh, tiến bộ đột phá đến từ công nghệ mô hình khuếch tán (diffusion). Việc ra mắt Stable Diffusion đã đưa lĩnh vực vẽ tranh AI bước vào giai đoạn bùng nổ. Các nền tảng truyền thông bắt đầu quy mô hóa sử dụng AI để tạo hình, giảm chi phí sản xuất và tránh rủi ro bản quyền. OpenAI còn hợp tác sâu với Shutterstock, thư viện hình ảnh bản quyền lớn nhất thế giới, qua đó các hình ảnh tạo ra từ DALL-E đã trở thành lựa chọn mới trong ứng dụng thương mại.

Video, âm thanh và mã nguồn cũng thể hiện tiềm năng rộng lớn. Mô hình Phenaki của Google có thể tạo ra video dài dựa trên mô tả văn bản trong vòng hai phút; nhân vật ảo kết hợp AIGC tạo ra giọng nói có thể tự động phát tin và đóng vai; GitHub Copilot đã trở thành trợ lý mã hóa cho các nhà phát triển. Sự trưởng thành của các ứng dụng này đánh dấu AIGC đang chuyển đổi từ công cụ biên giới thành công cụ năng suất chính thống.

Nền tảng công nghệ của AIGC: Xử lý ngôn ngữ tự nhiên và thuật toán sinh nội dung

Để hiểu cách hoạt động của AIGC, cần đi sâu vào hai trụ cột công nghệ chính: Xử lý ngôn ngữ tự nhiên (NLP) và thuật toán sinh nội dung.

Tiến trình phát triển của xử lý ngôn ngữ tự nhiên

Xử lý ngôn ngữ tự nhiên là nền tảng để con người và máy tính có thể tương tác qua ngôn ngữ tự nhiên. Công nghệ này kết hợp ngôn ngữ học, khoa học máy tính và toán học, giúp máy hiểu ngôn ngữ tự nhiên, trích xuất thông tin, dịch tự động và xử lý nội dung. Từ khi NLP phát triển, các nhiệm vụ cốt lõi của nó chia thành hai hướng:

  • Hiểu ngôn ngữ tự nhiên (NLU): giúp máy tính có khả năng hiểu ngôn ngữ như con người. Khác với các máy chỉ xử lý dữ liệu có cấu trúc, NLU cho phép máy nhận diện và trích xuất ý định ẩn trong ngôn ngữ, từ đó thực sự hiểu ngôn ngữ tự nhiên. Tuy nhiên, do tính đa dạng, mơ hồ và phụ thuộc vào ngữ cảnh của ngôn ngữ tự nhiên, khả năng hiểu của máy vẫn còn xa so với con người.

  • Sinh ngôn ngữ tự nhiên (NLG): chuyển đổi dữ liệu không phải dạng ngôn ngữ thành dạng ngôn ngữ con người có thể hiểu. Qua ba giai đoạn phát triển từ đơn giản đến phức tạp (từ ghép dữ liệu, dùng mẫu đến NLG cao cấp), NLG đã có thể hiểu ý định, xem xét ngữ cảnh và trình bày kết quả bằng ngôn ngữ tự nhiên mượt mà, trôi chảy.

Bước đột phá cốt lõi của NLP đến từ mô hình Transformer do Google phát triển năm 2017. Kiến trúc này sử dụng cơ chế tự chú ý (self-attention), phân bổ trọng số khác nhau dựa trên tầm quan trọng của từng phần dữ liệu đầu vào. So với mạng nơ-ron hồi quy (RNN) truyền thống, Transformer xử lý tất cả dữ liệu cùng lúc, tăng hiệu quả tính toán song song. Chính công nghệ này đã thúc đẩy sự phát triển của các mô hình lớn như BERT, GPT, tạo nền tảng vững chắc cho AIGC.

Hai dòng chính của thuật toán sinh nội dung

Trong lĩnh vực thuật toán sinh, hai phương pháp phổ biến nhất hiện nay là mạng đối lập sinh (GAN) và mô hình khuếch tán (diffusion).

  • GAN do Ian J. Goodfellow đề xuất năm 2014, gồm hai mạng: sinh và phân biệt đấu tranh nhau. Mạng sinh cố gắng tạo ra dữ liệu giả để lừa mạng phân biệt, trong khi mạng phân biệt cố gắng nhận diện dữ liệu giả. Quá trình huấn luyện đấu tranh này giúp hai mạng tiến hóa liên tục, cuối cùng đạt trạng thái cân bằng: mạng phân biệt không thể phân biệt dữ liệu thật giả nữa. Phương pháp này được ứng dụng rộng rãi trong quảng cáo, game, giải trí để tạo nhân vật hư cấu, mô phỏng biến đổi khuôn mặt, chuyển đổi phong cách.

Tuy nhiên, GAN tồn tại vấn đề huấn luyện không ổn định và thiếu mẫu (mode collapse). Mạng sinh và phân biệt cần đồng bộ chặt chẽ, trong thực tế dễ dẫn đến phân biệt hội tụ còn sinh sinh bị phân tán. Đôi khi, mạng sinh chỉ tạo ra các mẫu giống nhau, không thể tiếp tục học hỏi.

  • Mô hình khuếch tán cung cấp logic sinh gần hơn tư duy con người, là động lực thúc đẩy phát triển nhanh của AIGC. Mô hình này thêm nhiễu Gaussian liên tục vào dữ liệu huấn luyện, sau đó học cách đảo ngược quá trình này để khôi phục dữ liệu gốc. Sau huấn luyện, mô hình có thể tạo dữ liệu mới bằng cách thêm nhiễu ngẫu nhiên rồi dùng quá trình loại bỏ nhiễu đã học để sinh ra kết quả.

Ví dụ như DALL-E, người dùng nhập mô tả văn bản, hệ thống đầu tiên mã hóa văn bản (như dùng mô hình CLIP của OpenAI) để ánh xạ vào không gian biểu diễn; sau đó qua mô hình “prior” để chuyển mã văn bản thành mã hình ảnh, nắm bắt ý nghĩa; cuối cùng, mã hình ảnh được giải mã ngẫu nhiên thành hình ảnh trực quan, hoàn thành quá trình sáng tạo. Quá trình này tương tự cách con người tưởng tượng: có ý tưởng cơ bản rồi từng bước thêm chi tiết và tầng ý nghĩa.

So với GAN, mô hình khuếch tán có ba ưu điểm lớn: chất lượng hình ảnh sinh ra cao hơn, không cần huấn luyện đối kháng nên hiệu quả huấn luyện cao hơn, đồng thời mở rộng tốt hơn và khả năng tính toán song song mạnh mẽ. Những đặc điểm này khiến mô hình khuếch tán trở thành đại diện của thế hệ tiếp theo trong lĩnh vực tạo hình ảnh.

Đường hướng thương mại của AIGC: Từ trợ lý đến nhà sáng tạo

Xét về độ trưởng thành ứng dụng, AIGC đã thể hiện rõ mô hình kinh doanh trong các lĩnh vực như tạo văn bản, hình ảnh, âm thanh, game và mã nguồn. Đặc biệt trong các nhiệm vụ có tính lặp lại cao, yêu cầu độ chính xác không quá khắt khe, AIGC đã khá trưởng thành và đang tích cực tìm kiếm mô hình sinh lời. Các nhà cung cấp dịch vụ này thường áp dụng mô hình SaaS dựa trên đăng ký.

Mô hình SaaS trong sáng tạo nội dung

Jasper là đại diện tiêu biểu trong lĩnh vực sinh văn bản. Nền tảng này mới thành lập chưa đầy hai năm, cho phép cá nhân và nhóm sáng tạo nội dung thương mại bằng AI. Người dùng nhập mô tả và yêu cầu về bài viết mục tiêu, hệ thống tự động thu thập dữ liệu và sáng tạo dựa theo chỉ thị. Ví dụ, khi tác giả nhập “Viết bài về AIGC, bao gồm định nghĩa, lịch sử phát triển, ứng dụng, tình hình hiện tại và xu hướng tương lai”, Jasper chỉ trong vài giây đã tạo ra bài viết mạch lạc, rõ ràng, có ví dụ minh họa đầy đủ. Nền tảng cung cấp hàng trăm mẫu, người dùng linh hoạt lựa chọn theo nhu cầu.

Về thành tích thương mại, Jasper thu hút vốn đầu tư 125 triệu USD trong vòng gọi vốn gần nhất, định giá đạt 1,5 tỷ USD. Khách hàng của họ đã vượt 70.000, gồm các doanh nghiệp lớn như Airbnb, IBM. Doanh thu năm 2022 đã đạt 40 triệu USD, dự kiến cả năm sẽ vượt 90 triệu USD.

Ứng dụng quy mô trong sáng tạo hình ảnh

MidJourney đơn giản hóa giao diện, giúp người không chuyên cũng có thể sáng tạo nghệ thuật qua mô tả văn bản. Hệ thống phân tích ngữ nghĩa qua NLP, dịch sang ngôn ngữ máy tính, kết hợp dữ liệu riêng để tạo ra tác phẩm mới. Các tác phẩm AI này thuộc sở hữu trí tuệ của AI, được ứng dụng rộng rãi trong truyền thông, mạng xã hội, giảm chi phí và tránh tranh chấp bản quyền. Một số nhà sáng tạo dữ liệu đã bắt đầu dùng AIGC để tạo nguyên liệu, sau đó thương mại hóa qua các nền tảng mạng xã hội của riêng họ.

Video, âm thanh và các lĩnh vực dọc khác

Mô hình Phenaki của Google thể hiện tiềm năng tạo video dài dựa trên mô tả văn bản trong thời gian cực ngắn. Kết hợp công nghệ nhân vật ảo, giọng nói và biểu cảm của AIGC trở nên chân thực tự nhiên hơn, hiệu quả và đa dạng hơn so với đọc bài của nhân vật ảo đơn thuần.

Trong lĩnh vực âm thanh, AIGC đã phổ biến trong các ứng dụng hàng ngày. Hệ thống dẫn đường trên điện thoại có thể chuyển đổi giọng nói của các nhân vật nổi tiếng, người dùng Gaode Map có thể ghi âm bộ giọng riêng. Ở cấp độ sâu hơn, trong lĩnh vực nhân vật ảo, AIGC không chỉ tạo ra giọng nói mà còn sáng tạo nội dung, giúp nhân vật ảo thể hiện ý tưởng như người thật.

Trong phát triển game, AIGC có thể dùng để xây dựng cảnh, sáng tác câu chuyện, tạo NPC, nâng cao hiệu quả phát triển. Người chơi cũng có thể tạo nhân vật ảo để tham gia hoạt động trong game. GitHub Copilot đã trở thành trợ lý mã hóa, đã huấn luyện trên hàng tỷ dòng mã nguồn mở.

Khung khổ đầu tư cốt lõi của AIGC: Phần mềm phần cứng và hệ sinh thái dữ liệu

Xét từ góc độ đầu tư, thành công của ngành AIGC dựa trên ba tầng: phần mềm (thuật toán và mô hình), phần cứng (công suất tính toán) và hệ sinh thái dữ liệu (dữ liệu huấn luyện).

Tích lũy công nghệ phần mềm

Phần mềm chủ yếu gồm công nghệ NLP và mô hình sinh nội dung AIGC. Trong lĩnh vực NLP, các công ty như Google, Microsoft, iFlytek, Trí Tuệ Nhân Tạo Tường Thao, v.v. có lợi thế công nghệ. Về mô hình và dữ liệu, các doanh nghiệp như Nvidia, Meta, Baidu, BlueFocus, Visual China, Kunlun Wanwei dẫn đầu. Các công ty này tích lũy lượng dữ liệu huấn luyện lớn và tối ưu thuật toán, hình thành lợi thế cạnh tranh công nghệ.

Hạ tầng phần cứng và công suất tính toán

Công suất tính toán là “quyền lực” trong kỷ nguyên AIGC. Hiện tại, Stable Diffusion dựa trên hơn 4000 GPU Nvidia A100 hoạt động liên tục, chi phí vận hành vượt quá 50 triệu USD. Điều này cho thấy đầu tư lớn về phần cứng là nền tảng phát triển của AIGC. Các nhà tham gia gồm Lân Khởi Công Nghệ, ZTE, InnoLight, Tianfutong, Baoshen Software, Zhongji Xuchuang, v.v. Khi xuất khẩu chip cao cấp của Nvidia bị hạn chế, các chip tính toán nội địa sẽ có cơ hội thị trường lớn hơn.

Chất lượng dữ liệu quyết định giới hạn

Mô hình CLIP của OpenAI dựa trên 400 triệu cặp ảnh-viết tiếng Anh chất lượng cao, thể hiện rõ vai trò quyết định của lượng dữ liệu lớn và chất lượng cao đối với hiệu năng mô hình. Tuy nhiên, để sao chép thành công này là cực kỳ khó khăn — các nhóm nước ngoài dùng tới 2 tỷ cặp ảnh-viết mới gần đạt hiệu quả của CLIP. Điều này cho thấy việc thu thập, làm sạch, gắn nhãn dữ liệu tốn kém, và chất lượng, tính hợp pháp cùng đa dạng phong cách của dữ liệu ảnh ảnh hưởng trực tiếp đến chất lượng nội dung do AIGC tạo ra.

Các thách thức kỹ thuật và hướng đột phá của AIGC

Dù đã bước vào quy mô ứng dụng thương mại, AIGC vẫn còn tồn tại các hạn chế rõ rệt về mặt kỹ thuật. Nội dung sinh ra hiện tại thường chưa đạt tiêu chuẩn cao về độ chi tiết chính xác.

** Nguyên nhân của vấn đề độ chính xác**

Trong tạo hình ảnh, AIGC thể hiện tốt các hình ảnh hai chiều hoặc trừu tượng, nhưng xử lý chi tiết còn hạn chế. Ví dụ như hình “người đẹp và mèo bông”, hệ thống gặp lỗi trong mô tả chi tiết (như mắt mèo) và quan hệ không gian — hình “người đẹp” lại có mặt mèo. Các vấn đề này bắt nguồn từ khả năng hiểu và xử lý ngữ nghĩa tự nhiên còn hạn chế, đặc biệt là trong việc nắm bắt mối quan hệ không gian và số lượng.

** Thách thức ngôn ngữ và địa phương hóa**

Sự phát triển không đồng đều của mã hóa văn bản (text encoder) làm trầm trọng thêm vấn đề này. Hiện tại, mô hình Clip của OpenAI dựa trên 400 triệu cặp ảnh-viết tiếng Anh, mã nguồn mở nhưng dữ liệu bị giới hạn. Điều này khiến các ngôn ngữ khác khó tiếp cận lượng dữ liệu ảnh-viết chất lượng cao tỷ lệ tỷ, gây khó khăn cho ứng dụng AIGC không phải tiếng Anh, phải qua bước dịch. Quá trình dịch không chỉ đòi hỏi hiểu ngữ nghĩa mà còn liên quan đến văn hóa, thói quen ngôn ngữ, khiến việc dịch chính xác rất khó, đặt ra thách thức lớn cho các mô hình dịch.

** Ảnh hưởng của khác biệt thuật toán và dữ liệu**

Các nền tảng ứng dụng khác nhau sử dụng các thuật toán sinh và dữ liệu khác nhau, dẫn đến chất lượng đầu ra khác biệt lớn khi cùng đầu vào. Chất lượng, tính hợp pháp và phong cách của dữ liệu ảnh ảnh hưởng trực tiếp đến hiệu quả sinh nội dung.

Ba trụ cột phát triển tương lai của AIGC: Mô hình lớn, Dữ liệu lớn, Công suất lớn

Nhìn về tương lai, hướng phát triển cốt lõi của AIGC tập trung vào ba lĩnh vực: mô hình tiền huấn luyện quy mô lớn, tích lũy dữ liệu lớn và đầu tư phần cứng lớn. Đây là điều kiện cần để AIGC từ vai trò “trợ lý” hiện tại tiến tới “nhà sáng tạo độc lập”.

Lý Hồng Minh từng tổng kết quá trình phát triển của AIGC qua ba giai đoạn: Giai đoạn 1 là “giai đoạn trợ lý”, AIGC hỗ trợ sáng tạo của con người; Giai đoạn 2 là “giai đoạn hợp tác”, AIGC dạng nhân vật ảo cộng sinh cùng con người; Giai đoạn 3 là “giai đoạn sáng tạo độc lập”, AIGC tự chủ sáng tạo. Trong mười năm tới, AIGC dự kiến có thể tạo ra nội dung gốc với chi phí bằng một phần mười, tốc độ gấp trăm đến nghìn lần, hoàn toàn làm thay đổi mô hình sản xuất nội dung hiện tại.

Để đạt được tầm nhìn này, phát triển các ứng dụng chuyên sâu trong các lĩnh vực riêng biệt sẽ là trọng tâm. So với các mô hình lớn chung chung, các ứng dụng dọc có thể huấn luyện chính xác hơn cho các chức năng cụ thể, chi phí thấp hơn, hiệu quả cao hơn. Đồng thời, trước khi hoàn thiện khung pháp lý về sở hữu trí tuệ và đạo đức sáng tạo của AIGC, việc thu thập dữ liệu chất lượng cao, hợp pháp sẽ trở thành chiến lược trọng điểm.

Lộ trình rõ ràng cho cơ hội đầu tư

Xét từ góc độ vĩ mô, các khái niệm blockchain, metaverse, Web3 vẽ ra các kịch bản ứng dụng lớn của nền kinh tế số. Nhân vật ảo, NFT và các hướng gần đây được vốn chú ý chỉ là biểu hiện cụ thể trong đó. AIGC, như một công cụ chủ đạo thúc đẩy chuyển đổi số từ Web2 sang Web3, vừa gây ảnh hưởng đột phá đến các ứng dụng chủ chốt như video ngắn, game, vừa dưới tầm nhìn giá trị mở của Web3, nội dung UGC và AIGC sẽ có sức hút mạnh mẽ hơn, làn sóng sáng tạo thứ cấp và mở rộng tưởng tượng đang đến gần.

Về chiến lược đầu tư, ngành AIGC trong ba chiều phần mềm, phần cứng và hệ sinh thái dữ liệu đều chứa đựng cơ hội:

  • Đổi mới phần mềm: Các công ty công nghệ NLP, ứng dụng AIGC dọc ngành, các công ty huấn luyện mô hình lớn
  • Hỗ trợ phần cứng: Trong bối cảnh chip Nvidia bị hạn chế, các nhà cung cấp chip tính toán nội địa, dịch vụ tập hợp GPU có cơ hội tăng trưởng
  • Hệ sinh thái dữ liệu: Các nhà cung cấp dịch vụ thu thập, làm sạch, gắn nhãn dữ liệu chất lượng cao sẽ trở thành tài nguyên khan hiếm

Hiện tại, AIGC đã trở thành hướng khởi nghiệp nóng nhất tại Thung lũng Silicon, các thị trường sơ cấp trong nước và các tập đoàn internet cũng đang tăng cường quan tâm ứng dụng AIGC. Điều này đánh dấu AIGC đã bước vào thời kỳ ứng dụng quy mô lớn từ nghiên cứu công nghệ.

Cảnh báo rủi ro và các điểm quan sát chính

Rủi ro kỹ thuật: Tiến bộ công nghệ AIGC có thể chậm lại hoặc không đạt kỳ vọng, đặc biệt là tốc độ đổi mới của phần cứng nền tảng (siêu máy tính, chip tính toán).

Rủi ro chính sách: AIGC còn trong giai đoạn sơ khai, trong tương lai có thể ban hành các quy định về sở hữu trí tuệ, bản quyền nội dung do AI tạo ra hoặc các quy định pháp lý khác, ảnh hưởng trực tiếp đến sự phát triển của ngành.

Rủi ro cạnh tranh: Các tập đoàn công nghệ lớn gia nhập có thể thúc đẩy hợp nhất ngành, các doanh nghiệp khởi nghiệp sẽ đối mặt với áp lực sinh tồn.

Tổng thể, giá trị của AIGC nằm ở việc thay đổi căn bản phương thức sản xuất nội dung. Từ phía cầu về nội dung, thời đại Web3 thúc đẩy nhu cầu và đa dạng nội dung tăng vọt; từ phía cung, AIGC cung cấp hiệu quả chưa từng có. Thời điểm hoàn hảo này chính là cơ hội để AIGC phát triển nhanh và biến đổi các ngành nghề.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
0/400
Không có bình luận
  • Ghim