Nền tảng nào xây dựng các đại lý AI tốt nhất? Chúng tôi kiểm tra ChatGPT, Claude, Gemini và nhiều hơn nữa

Người mới bắt đầu1/10/2025, 3:10:17 AM
Bài viết này so sánh và thử nghiệm năm nền tảng AI chính (ChatGPT, Google Gemini, HuggingChat, Claude và Mistral AI), đánh giá sự dễ sử dụng và chất lượng kết quả trong việc tạo ra các đại lý AI.

Một so sánh thực tế của năm nền tảng hàng đầu cho thấy nền tảng nào tốt nhất để lưu trữ các đại lý AI tương lai của bạn cho các tình huống hàng ngày.

Hình ảnh được tạo bởi Decrypt bằng trí tuệ nhân tạo

Bạn có thể làm bất cứ điều gì với các đại lý trí tuệ nhân tạo: tìm kiếm thông tin trong thư viện tài liệu của bạn, xây dựng mã, lượm dữ liệu trên web, có cái nhìn và phân tích sâu sắc về dữ liệu phức tạp, và nhiều hơn nữa. Bạn thậm chí có thể tạo ra một văn phòng ảo với một đám đại lý chuyên nghiệp trong các nhiệm vụ khác nhau và có họ làm việc cùng nhau như nhân viên chuyên nghiệp của bạn.

Vậy việc này khó như thế nào? Nếu một người thông thường muốn xây dựng người tư vấn tài chính AI của riêng họ, ví dụ, nền tảng nào sẽ phục vụ họ tốt nhất? Không cần API, không cần mã lập trình kỳ quặc, không cần Github - chúng tôi chỉ muốn xem xem các công ty AI hàng đầu có tạo ra các đại lý AI tốt nhất mà không cần người dùng sở hữu một trình độ kỹ thuật cao như thế nào.

Tất nhiên, bạn nhận được những gì bạn trả tiền. Trong trường hợp này, chúng tôi cũng muốn xem xét xem có mối tương quan giữa việc dễ dàng thiết lập một đại lý đối với người ngoại đạo và chất lượng kết quả mà mỗi đại lý đem lại.

Thử nghiệm của chúng tôi đã đưa năm nhà lãnh đạo nặng ký đối đầu với nhau: ChatGPT, Claude, Huggingface, Mistral AI và Gemini. Mỗi nền tảng đều nhận được cùng các hướng dẫn cơ bản để tạo ra một nhà tư vấn tài chính.

Bài kiểm tra tập trung duy nhất vào khả năng sử dụng ngay. Cho dù các nhân viên có khả năng xử lý một tình huống phổ biến - trong trường hợp này, giúp ai đó cân nhắc 25.000 đô la đầu tư so với 30.000 đô la nợ. Chúng tôi cũng muốn xem họ giỏi đến đâu trong việc phân tích biểu đồ giao dịch. Chúng tôi tránh sử dụng các công cụ bổ sung có thể làm tăng năng suất của các nhân viên và thay vào đó cố gắng tiếp cận cách đơn giản nhất.

TL;DR Đây là những gì chúng tôi tìm hiểu và cách chúng tôi xếp hạng các mô hình:

Bảng xếp hạng nền tảng

1) GPT của OpenAI (8.5/10)

  • Dễ cài đặt: 4/5
  • Chất lượng kết quả: 4,5/5

ChatGPT là nền tảng cân bằng nhất, cung cấp tùy chọn tạo đại lý tinh vi với cả hướng dẫn và tùy chọn thủ công để đáp ứng nhu cầu của cả người mới bắt đầu và người dùng có kinh nghiệm hơn một chút.

Mặc dù giao diện cập nhật gần đây đã chôn vùi một số tính năng trong menu, nền tảng vượt trội trong việc dịch các yêu cầu của người dùng phức tạp thành các đại lý chức năng. Chúng tôi đã kiểm tra mô hình bằng cách xây dựng một cố vấn tài chính thể hiện sự nhận thức bối cảnh và khả năng giải quyết vấn đề có cấu trúc vượt trội, cung cấp các chiến lược chi tiết nhưng mạch lạc cho quản lý nợ và phân bổ đầu tư.

2) Google Gemini (7/10)

  • Cài đặt dễ dàng: 4/5
  • Chất lượng kết quả: 3/5

Gemini stands out with its polished, intuitive interface and excellent error handling. While requiring more detailed prompts for optimal results, its literal interpretation of instructions creates consistent, predictable outcomes.

Phương pháp tư vấn của đại lý về tài chính nhấn mạnh việc thu thập ngữ cảnh trước khi đưa ra đề xuất, phản ánh các thực hành chuyên nghiệp. Tuy nhiên, nó có thể quá thận trọng trong việc phản ứng không cần thiết.

3) HuggingChat (6.5/10)

  • Cài đặt Dễ dàng: 2/5
  • Chất lượng kết quả: 4.5/5

Nền tảng mã nguồn mở cung cấp các tùy chỉnh và lựa chọn mô hình không giới hạn. Điều này rất tốt cho những người tìm kiếm kiểm soát cụ thể trên mọi khía cạnh, nhưng thực sự không phù hợp với những người tìm kiếm sự đơn giản. (Hãy nghĩ về việc so sánh một hệ thống Linux với một hệ thống macOS). Khung thời gian phức tạp và tích hợp công cụ thực tế của nó thể hiện khả năng tiên tiến.

Chúng tôi đã xây dựng một đại lý thuần túy mà không có bất kỳ chức năng bổ sung nào. Chúng tôi đã sử dụng Nemomotron của Nvidia như là LLM cơ bản, và nó đã đủ tốt để phù hợp với ChatGPT về chất lượng đầu ra. Không tồi cho trại mã nguồn mở.

4) Claude (5.5/10)

  • Độ dễ cài đặt: 2.5/5
  • Chất lượng kết quả: 3/5

Nền tảng của Anthropic vượt trội trong các hốc cụ thể, đặc biệt là các tác vụ yêu cầu xử lý ngữ cảnh và giải thích mã rộng rãi. Giao diện tối giản của nó che giấu các khả năng tinh vi, nhưng trường hướng dẫn “tùy chọn” có thể gây nhầm lẫn cho người dùng.

Đại lý của chúng tôi đã duy trì một thái độ rất thận trọng và mập mờ trong lời khuyên, nhưng đã thể hiện sự nhận thức rõ ràng về rủi ro và tư duy chiến lược. Để thực sự khai thác tiềm năng của nó, cần có sự thúc đẩy cẩn thận hơn, nhưng sẽ không công bằng nếu một bài kiểm tra phải thích nghi với một lời thúc đẩy, phủ nhận giả định về các điều kiện tương tự.

5) Mistral AI (5/10)

  • Độ dễ cài đặt: 2,5/5
  • Chất lượng kết quả: 2.5/5

Nền tảng Pháp cung cấp việc học dựa trên ví dụ duy nhất và tùy chọn tinh chỉnh sâu. Tuy nhiên, giao diện dành cho nhà phát triển và các vấn đề chuyển đổi ngôn ngữ đôi khi tạo ra rào cản đối với người dùng không chuyên môn. Nó cũng yêu cầu sửa đổi cấu hình của tác nhân để khác nhau như phân tích hình ảnh hoặc xử lý mã. Điều này không phải là lựa chọn lý tưởng.

Nhà tư vấn tài chính đã cho thấy tiềm năng trong thiết kế tương tác, nhưng gặp khó khăn trong việc xác thực toán học cơ bản và cho kết quả tồi nhất. Điều này không có nghĩa là kết quả là xấu, nhưng trong một bài kiểm tra không có hướng dẫn, đây là kết quả ít hài lòng nhất.

Đi sâu hơn

Xét về bảng xếp hạng trước đó, không có giải pháp phù hợp cho tất cả và tất cả các nền tảng đều có những ưu điểm và nhược điểm riêng của mình. Với một số sự cống hiến và tùy chỉnh cẩn thận, kết quả từ một nền tảng có thể khác nhau và vượt xa cả đám đông. Cuối cùng, tất cả các LLM đều có phong cách khuyến khích riêng của họ.

Nếu bạn muốn biết thêm về lý do đằng sau bảng xếp hạng của chúng tôi, đây là cái nhìn sâu hơn vào trải nghiệm của chúng tôi và kết quả mà chúng tôi nhận được với các đại lý của chúng tôi. Chúng tôi đã cấu hình tất cả các đại lý của chúng tôi với cùng một hệ thống nhắc nhở, không có thêm thông số hay chức năng nào, và yêu cầu họ cùng một câu hỏi cơ bản: “Tôi có $25K để đầu tư và nợ $30K. Hãy xây dựng cho tôi một kế hoạch tài chính.”

OpenAI

Giao diện của ChatGPT gần đây đã được cải tiến một cách thực sự làm mọi thứ trở nên phức tạp hơn. Tùy chọn tạo GPT hiện nay đã được ẩn sau các menu, nhưng khi tìm thấy, nó cung cấp hai lối đi: một cài đặt trò chuyện nơi AI giúp xây dựng người đại diện của bạn, và một cấu hình thủ công cho những người biết chính xác họ muốn gì.

Nền tảng GPT của OpenAI là một chiếc dao đa năng của các khả năng - nó đọc mã, tìm kiếm trên web và xử lý cả việc tạo và phân tích hình ảnh. Quá trình thiết lập được hướng dẫn bởi trí tuệ nhân tạo, đặc biệt phù hợp cho người mới, mặc dù nó có thể cảm thấy hạn chế đối với người dùng có quyền lực tìm kiếm kiểm soát cụ thể. (Ví dụ, Nếu bạn yêu cầu mô hình cụ thể hơn hoặc chi tiết hơn, nó có thể thay đổi toàn bộ yêu cầu hệ thống, mang lại kết quả tồi hơn cho bạn.)

Khi thực sự sử dụng tác nhân, ChatGPT rất dễ hiểu và giao diện sạch sẽ và dễ hiểu.

Các đại lý có thể đọc tài liệu và hiểu hình ảnh một cách tự nhiên, điều này mang lại lợi thế so với các nền tảng khác.

Bây giờ, hãy nói về chất lượng của những người đại diện mà bạn có thể tạo ra với việc gợi ý cơ bản. Nhà tư vấn tài chính của chúng tôi tên là MoneyGPTđã rất ấn tượng, cho chúng tôi một bài học về giải quyết vấn đề có cấu trúc.

Ngoài việc phân bổ chính xác - “20.000 đô la cho nợ lãi suất cao” và phân chia danh mục đầu tư chi tiết - đại lý đã chứng minh lý do tài chính tinh vi. Nó cung cấp một lộ trình năm bước không chỉ là một danh sách, mà là một chiến lược mạch lạc chiếm cả nhu cầu trước mắt và cân nhắc dài hạn.

Sức mạnh của đại lý nằm ở khả năng cân bằng chi tiết với bối cảnh. Trong khi đề xuất các khoản đầu tư cụ thể (40% S&P 500, 30% trái phiếu), nó cũng giải thích lý do đằng sau các phản ứng của mình: “Thanh toán nợ lãi cao giống như nhận được lợi nhuận đảm bảo từ đầu tư.” Sự nhận thức bối cảnh này kéo dài đến kế hoạch dài hạn, đề xuất chu kỳ xem xét định kỳ và các chiến lược thích nghi dựa trên tình hình thay đổi.

Tuy nhiên, sự phong phú thông tin này đã tiết lộ một điểm yếu tiềm ẩn: rủi ro làm cho người dùng bị choáng ngợp với quá nhiều chi tiết cùng lúc. Mặc dù kỹ thuật phong phú, tuy nhiên việc cung cấp liên tục các phân bổ cụ thể, chiến lược đầu tư và kế hoạch giám sát có thể gây khó khăn cho những người mới bắt đầu trong lĩnh vực tài chính.

Bạn có thể đọc kế hoạch đầy đủ của nóđâyvà bạn có thể sử dụng nó bằng cách nhấp vàoliên kết này. Chúng tôi thực sự khuyên bạn nên sử dụng nó.

Google

Nhìn chung, nền tảng tạo ra tác nhân Gemini của Google giành chiến thắng trong cuộc thi sắc đẹp với giao diện mượt mà, trực quan, khiến việc tạo ra tác nhân trở nên quá dễ dàng. Hệ thống hiểu theo lệnh một cách đúng đắn, giúp tránh nhầm lẫn, và giao diện người dùng sáng sủa loại bỏ yếu tố đe dọa từ việc phát triển trí tuệ nhân tạo.

Tuy nhiên, để thu được những thông tin thú vị, nó yêu cầu một lời nhắc chi tiết hơn. Nó không coi mọi thứ là đương nhiên: một lời nhắc ngắn sẽ mang lại cho bạn một phản hồi chất lượng thấp.

Bên trong, nó đóng gói sức mạnh nghiêm túc - tích hợp tìm kiếm web được cung cấp bởi Google, phân tích mã nguồn và khả năng xử lý hình ảnh ngang tầm những gì ChatGPT cung cấp, nhưng chủ yếu dựa trên công nghệ của Microsoft.

Giao diện người dùng của Gemini có cảm giác như được thiết kế bởi những người thực sự hiểu về trải nghiệm người dùng. Giao diện hướng dẫn người dùng với các nhãn rõ ràng và tất cả mọi thứ hiển thị trên chỉ một màn hình.

Cách tiếp cận tinh tế này khiến nó trở nên đặc biệt hấp dẫn đối với người mới, mặc dù người dùng có kinh nghiệm có thể cảm thấy muốn có nhiều kiểm soát cụ thể hơn.

Chúng tôi đã gọi đến đại lý của chúng tôiMoneyGemvà yêu cầu một kế hoạch tài chính. Phương pháp tư vấn của nó đã giới thiệu phương pháp giải quyết vấn đề đặc biệt của Google. Thay vì đưa ra một câu trả lời thẳng thừa, nó dẫn đầu bằng những câu hỏi như “Nợ của bạn là loại nào?” và “Lãi suất của bạn là bao nhiêu?”—cho thấy sự hiểu biết rằng lời khuyên tài chính không phải là một kích cỡ phù hợp cho tất cả.

Sự nhấn mạnh vào việc thu thập ngữ cảnh trước khi cung cấp các khuyến nghị phù hợp với các phương pháp lập kế hoạch tài chính chuyên nghiệp, mặc dù có thể làm khó chịu người dùng muốn tìm kiếm câu trả lời ngay lập tức.

Một câu trả lời không có giá trị. Đại diện cơ bản nói rằng nó không biết đủ về người dùng để cung cấp lời khuyên tài chính tốt. Sau khi yêu cầu nó đưa ra giả định và buộc nó phải đưa ra một kế hoạch có thể phù hợp với hầu hết các tình huống, đại diện đã tạo ra một bản thảo rất thận trọng cho một kế hoạch mà không đưa ra gợi ý cụ thể về các khoản đầu tư nên xem xét.

Tuy nhiên, MoneyGem kết thúc câu trả lời của mình bằng một khuyên nghị tối údvền các tài khoản hội nghị được ơn để thuế như 401(k) hoặc Roth IRA để giảm bị thuế của bạn. Tuyệt với.

Bạn có thể nhấp đâyđể đọc cuộc trò chuyện của chúng tôi với MoneyGem và thử mô hình bằng cách nhấp vào liên kết này.

Mistral AI

Phương pháp tiếp cận việc cấu hình tác nhân của Mistral hơi xa rời sự đơn giản. Công cụ tạo tác nhân được ẩn trong bảng điều khiển của nhà phát triển, với các tùy chọn tùy chỉnh sâu mà có thể khiến người mới hãy sợ nhưng lại làm hài lòng những người tìm hiểu sửa chữa.

Giao diện xây dựng của nó không phải là một phần của LeChat (giao diện chatbot), nhưng sẽ xuất hiện ở đó sau khi agent được tạo.

Một điều chúng tôi thực sự thích là khả năng cung cấp cho công cụ các ví dụ để hình thành hành vi và phong cách phản ứng của đại lý - điều mà hiện tại không có nền tảng nào khác có. Ngoài ra, đây là một lỗi kỳ lạ: Trong khi tạo đại lý của chúng tôi, giao diện người dùng bất ngờ chuyển sang tiếng Pháp, có thể do công ty là người Pháp. Dù vậy, chúng tôi không thể chuyển lại tiếng Anh hoặc tiếng Tây Ban Nha.

Sau khi tạo thành công đại lý, người dùng phải gọi nó trong giao diện chatbot thông thường để làm việc với nó. Họ phải thoát khỏi Le Plateforme và chuyển sang Le Chat, điều này không phải là điều dễ hiểu nhất để làm. Tuy nhiên, giao diện người dùng cho việc sử dụng đại lý khá đơn giản và giống như bất kỳ chatbot AI nào khác.

Chúng tôi đã xây dựng đại lý của mình, và đặt tên là Le Moneyto honor Mistral’s French roots. Its performance clearly showed Mistral’s generalist approach to problem-solving. Its suggestion to “set aside $10,000 for emergencies, $15,000 for debt repayment, and $10,000 for investments” appeared straightforward, but showed that the agents lacked some basic mathematical validation.

Tổng số tiền $35,000 đã vượt quá số tiền khả dụng $10,000, đây là một sai lầm cơ bản mà một số mô hình ngôn ngữ thể hiện khi chúng ưu tiên tính chính xác khái niệm hơn số liệu.

Tuy nhiên, chúng ta phải nhận thức rằng những LLMs hoạt động tốt nhất đã cải thiện rất nhiều và không thất bại ở nhiệm vụ này — ít nhất là không thất bại thường xuyên như Mistral.

Ngoài ra, kế hoạch của nó không được chi tiết lắm, nhưng đó là duy nhất cung cấp các câu hỏi theo dõi có thể làm cho tương tác mượt mà hơn và có thể giúp nó hiểu rõ hơn nhu cầu của người dùng.

Kế hoạch đầy đủ của LeMoney đã sẵn sàngở đâyvà đại lý có sẵn để kiểm tratại đây.

Anthropic

Dự án của Claude cảm giác ít giống như một nền tảng tạo ra đại lý và nhiều hơn là một hệ thống thực hiện nhiệm vụ tinh vi. Giao diện tối giản, gần như quá tối giản, và không cảm thấy trực quan.

Giao diện tối giản này có thể khiến một số người dùng cảm thấy khó hiểu. Nền tảng hiển thị một bố cục tối giản với một trường hướng dẫn “tùy chọn” mà cảm giác như vừa quan trọng vừa không quan trọng: Nếu hướng dẫn được đánh dấu là tùy chọn, thì làm sao trí tuệ nhân tạo biết nó nên làm gì?

Giao diện tối giản của nó cảm thấy lạ lẫm, nhưng Anthropic chưa bao giờ nổi tiếng với sự lựa chọn giao diện người dùng. Cửa sổ cấu hình mô hình cũng là cửa sổ mà bạn sử dụng để khích lệ nó. Khả năng của nó tập trung chủ yếu vào việc diễn dịch mã văn bản, không có gì khác. Tìm kiếm web và xử lý và tạo hình ảnh là những điều phức tạp mà Anthropic để lại cho đối thủ của nó.

Đại lý của chúng tôi, tên là MoneyClaude, không khả dụng cho kiểm tra công cộng vì Anthropic không cho phép. Nó đã có một quan điểm rất thận trọng trong việc cung cấp lời khuyên tài chính với các phản hồi kỹ thuật chính xác nhưng mơ hồ - như ‘duy trì một phương pháp cân đối giữa giảm nợ và tiết kiệm thiết yếu,’ ví dụ.

Nó yêu cầu thông tin bổ sung, nhưng ít nhất đảm bảo cung cấp một chiến lược rất chung chung trong trường hợp thiếu thông tin mà không yêu cầu tương tác tiếp theo, điều này có vẻ tối ưu hơn phương pháp của Google.

Nhấp vào đây để đọckế hoạch đầy đủ.

Hugging Face

Kho lưu trữ mã nguồn mở đứng riêng lẻ như thiên đường dành cho người dùng mạnh mẽ và có thể là cơn ác mộng tiềm năng đối với người mới bắt đầu. Đây là nền tảng duy nhất cho phép người dùng chọn mô hình ngôn ngữ ưa thích của họ, mang lại sự kiểm soát chưa từng có đối với nền tảng của agent.

Ngoài ra, người dùng có hàng chục công cụ khác nhau để tích hợp với đại lý của họ, nhưng chỉ có thể kích hoạt ba trong số chúng cùng một lúc. Hạn chế này buộc phải xem xét cẩn thận về những tính năng quan trọng nhất đối với từng trường hợp sử dụng cụ thể, nhưng đây là điều mà mô hình nào khác cũng không thể cung cấp được.

Tuy nhiên, đây là trải nghiệm có thể tùy chỉnh nhiều nhất trong tất cả các giao diện, với rất nhiều nút để tinh chỉnh. Kết quả là một nền tảng có thể tạo ra các tác nhân chuyên biệt, mạnh mẽ hơn so với các đối thủ cạnh tranh, nhưng chỉ trong tay của một người biết chính xác những gì họ đang làm.

Người dùng có thể thử nghiệm các đại lý của họ trênHuggingChat—Công cụ mơ ước cho người dùng nâng cao. Sau khi tạo đại lý, việc sử dụng rất đơn giản. Giao diện hiển thị một thẻ lớn với tên, mô tả và hình ảnh của Đại lý. Nó cũng cho phép người dùng chia sẻ liên kết của đại lý và điều chỉnh các thiết lập của nó, tất cả đều từ thẻ.

Đặt chúng tôiHuggingMoney’sagent to the test shows that it deals with a time-horizon framework, showing a more sophisticated understanding of financial planning psychology. Its breakdown into “Short-Term (0-24 months), Mid-Term (24-60 months), and Long-Term (beyond 60 months)” mirrors professional financial planning practices.

Đại lý đề xuất phân bổ “$0-$5,000 vào các phương tiện thanh khoản, rủi ro thấp” trong khi duy trì việc thanh toán nợ mạnh mẽ hàng tháng từ “$1,000-$1,500.” Điều này, nhìn sơ qua, là một dấu hiệu của sự hiểu biết tinh tế về quản lý dòng tiền.

Một tính năng thú vị khác là tích hợp các công cụ thực tế với lời khuyên lý thuyết. Không chỉ đề xuất 50/30/20theo quy tắc, nó đề xuất các ứng dụng ngân sách cụ thể và nhấn mạnh việc tối ưu hóa thuế - tạo ra một sự kết nối giữa chiến lược cấp cao và thực thi hàng ngày. Nhược điểm chính? Nó bao gồm giả định về lãi suất nợ mà không tìm kiếm sự làm rõ.

Trong một nỗ lực để cung cấp lời khuyên hữu ích, nó coi nhẹ quá nhiều điều. Sự mong muốn cung cấp phản hồi dù bằng mọi cách cũng có thể được khắc phục bằng việc nhắc nhở, nhưng đây là điều cần xem xét.

Bạn có thể đọc kế hoạch đầy đủ của HuggingMoney đây. Ngoài ra, bạn có thể thử nó bằng cách nhấp vào liên kết này.

Disclaimer:

  1. Bài viết này được sao chép từ [gateGiải mã]. Tất cả bản quyền thuộc về tác giả gốc [Jose Antonio Lanz]. Nếu có ý kiến ​​phản đối về việc in lại này, vui lòng liên hệ với gate.Gate Learnđội ngũ và họ sẽ xử lý nhanh chóng.
  2. Tuyên bố từ chối trách nhiệm: Quan điểm và ý kiến được thể hiện trong bài viết này chỉ thuộc về tác giả và không đại diện cho lời khuyên đầu tư.
  3. Nhóm Gate Learn đã dịch bài viết sang các ngôn ngữ khác nhau. Việc sao chép, phân phối hoặc đạo văn các bài viết đã dịch là cấm trừ khi có đề cập đến.

Nền tảng nào xây dựng các đại lý AI tốt nhất? Chúng tôi kiểm tra ChatGPT, Claude, Gemini và nhiều hơn nữa

Người mới bắt đầu1/10/2025, 3:10:17 AM
Bài viết này so sánh và thử nghiệm năm nền tảng AI chính (ChatGPT, Google Gemini, HuggingChat, Claude và Mistral AI), đánh giá sự dễ sử dụng và chất lượng kết quả trong việc tạo ra các đại lý AI.

Một so sánh thực tế của năm nền tảng hàng đầu cho thấy nền tảng nào tốt nhất để lưu trữ các đại lý AI tương lai của bạn cho các tình huống hàng ngày.

Hình ảnh được tạo bởi Decrypt bằng trí tuệ nhân tạo

Bạn có thể làm bất cứ điều gì với các đại lý trí tuệ nhân tạo: tìm kiếm thông tin trong thư viện tài liệu của bạn, xây dựng mã, lượm dữ liệu trên web, có cái nhìn và phân tích sâu sắc về dữ liệu phức tạp, và nhiều hơn nữa. Bạn thậm chí có thể tạo ra một văn phòng ảo với một đám đại lý chuyên nghiệp trong các nhiệm vụ khác nhau và có họ làm việc cùng nhau như nhân viên chuyên nghiệp của bạn.

Vậy việc này khó như thế nào? Nếu một người thông thường muốn xây dựng người tư vấn tài chính AI của riêng họ, ví dụ, nền tảng nào sẽ phục vụ họ tốt nhất? Không cần API, không cần mã lập trình kỳ quặc, không cần Github - chúng tôi chỉ muốn xem xem các công ty AI hàng đầu có tạo ra các đại lý AI tốt nhất mà không cần người dùng sở hữu một trình độ kỹ thuật cao như thế nào.

Tất nhiên, bạn nhận được những gì bạn trả tiền. Trong trường hợp này, chúng tôi cũng muốn xem xét xem có mối tương quan giữa việc dễ dàng thiết lập một đại lý đối với người ngoại đạo và chất lượng kết quả mà mỗi đại lý đem lại.

Thử nghiệm của chúng tôi đã đưa năm nhà lãnh đạo nặng ký đối đầu với nhau: ChatGPT, Claude, Huggingface, Mistral AI và Gemini. Mỗi nền tảng đều nhận được cùng các hướng dẫn cơ bản để tạo ra một nhà tư vấn tài chính.

Bài kiểm tra tập trung duy nhất vào khả năng sử dụng ngay. Cho dù các nhân viên có khả năng xử lý một tình huống phổ biến - trong trường hợp này, giúp ai đó cân nhắc 25.000 đô la đầu tư so với 30.000 đô la nợ. Chúng tôi cũng muốn xem họ giỏi đến đâu trong việc phân tích biểu đồ giao dịch. Chúng tôi tránh sử dụng các công cụ bổ sung có thể làm tăng năng suất của các nhân viên và thay vào đó cố gắng tiếp cận cách đơn giản nhất.

TL;DR Đây là những gì chúng tôi tìm hiểu và cách chúng tôi xếp hạng các mô hình:

Bảng xếp hạng nền tảng

1) GPT của OpenAI (8.5/10)

  • Dễ cài đặt: 4/5
  • Chất lượng kết quả: 4,5/5

ChatGPT là nền tảng cân bằng nhất, cung cấp tùy chọn tạo đại lý tinh vi với cả hướng dẫn và tùy chọn thủ công để đáp ứng nhu cầu của cả người mới bắt đầu và người dùng có kinh nghiệm hơn một chút.

Mặc dù giao diện cập nhật gần đây đã chôn vùi một số tính năng trong menu, nền tảng vượt trội trong việc dịch các yêu cầu của người dùng phức tạp thành các đại lý chức năng. Chúng tôi đã kiểm tra mô hình bằng cách xây dựng một cố vấn tài chính thể hiện sự nhận thức bối cảnh và khả năng giải quyết vấn đề có cấu trúc vượt trội, cung cấp các chiến lược chi tiết nhưng mạch lạc cho quản lý nợ và phân bổ đầu tư.

2) Google Gemini (7/10)

  • Cài đặt dễ dàng: 4/5
  • Chất lượng kết quả: 3/5

Gemini stands out with its polished, intuitive interface and excellent error handling. While requiring more detailed prompts for optimal results, its literal interpretation of instructions creates consistent, predictable outcomes.

Phương pháp tư vấn của đại lý về tài chính nhấn mạnh việc thu thập ngữ cảnh trước khi đưa ra đề xuất, phản ánh các thực hành chuyên nghiệp. Tuy nhiên, nó có thể quá thận trọng trong việc phản ứng không cần thiết.

3) HuggingChat (6.5/10)

  • Cài đặt Dễ dàng: 2/5
  • Chất lượng kết quả: 4.5/5

Nền tảng mã nguồn mở cung cấp các tùy chỉnh và lựa chọn mô hình không giới hạn. Điều này rất tốt cho những người tìm kiếm kiểm soát cụ thể trên mọi khía cạnh, nhưng thực sự không phù hợp với những người tìm kiếm sự đơn giản. (Hãy nghĩ về việc so sánh một hệ thống Linux với một hệ thống macOS). Khung thời gian phức tạp và tích hợp công cụ thực tế của nó thể hiện khả năng tiên tiến.

Chúng tôi đã xây dựng một đại lý thuần túy mà không có bất kỳ chức năng bổ sung nào. Chúng tôi đã sử dụng Nemomotron của Nvidia như là LLM cơ bản, và nó đã đủ tốt để phù hợp với ChatGPT về chất lượng đầu ra. Không tồi cho trại mã nguồn mở.

4) Claude (5.5/10)

  • Độ dễ cài đặt: 2.5/5
  • Chất lượng kết quả: 3/5

Nền tảng của Anthropic vượt trội trong các hốc cụ thể, đặc biệt là các tác vụ yêu cầu xử lý ngữ cảnh và giải thích mã rộng rãi. Giao diện tối giản của nó che giấu các khả năng tinh vi, nhưng trường hướng dẫn “tùy chọn” có thể gây nhầm lẫn cho người dùng.

Đại lý của chúng tôi đã duy trì một thái độ rất thận trọng và mập mờ trong lời khuyên, nhưng đã thể hiện sự nhận thức rõ ràng về rủi ro và tư duy chiến lược. Để thực sự khai thác tiềm năng của nó, cần có sự thúc đẩy cẩn thận hơn, nhưng sẽ không công bằng nếu một bài kiểm tra phải thích nghi với một lời thúc đẩy, phủ nhận giả định về các điều kiện tương tự.

5) Mistral AI (5/10)

  • Độ dễ cài đặt: 2,5/5
  • Chất lượng kết quả: 2.5/5

Nền tảng Pháp cung cấp việc học dựa trên ví dụ duy nhất và tùy chọn tinh chỉnh sâu. Tuy nhiên, giao diện dành cho nhà phát triển và các vấn đề chuyển đổi ngôn ngữ đôi khi tạo ra rào cản đối với người dùng không chuyên môn. Nó cũng yêu cầu sửa đổi cấu hình của tác nhân để khác nhau như phân tích hình ảnh hoặc xử lý mã. Điều này không phải là lựa chọn lý tưởng.

Nhà tư vấn tài chính đã cho thấy tiềm năng trong thiết kế tương tác, nhưng gặp khó khăn trong việc xác thực toán học cơ bản và cho kết quả tồi nhất. Điều này không có nghĩa là kết quả là xấu, nhưng trong một bài kiểm tra không có hướng dẫn, đây là kết quả ít hài lòng nhất.

Đi sâu hơn

Xét về bảng xếp hạng trước đó, không có giải pháp phù hợp cho tất cả và tất cả các nền tảng đều có những ưu điểm và nhược điểm riêng của mình. Với một số sự cống hiến và tùy chỉnh cẩn thận, kết quả từ một nền tảng có thể khác nhau và vượt xa cả đám đông. Cuối cùng, tất cả các LLM đều có phong cách khuyến khích riêng của họ.

Nếu bạn muốn biết thêm về lý do đằng sau bảng xếp hạng của chúng tôi, đây là cái nhìn sâu hơn vào trải nghiệm của chúng tôi và kết quả mà chúng tôi nhận được với các đại lý của chúng tôi. Chúng tôi đã cấu hình tất cả các đại lý của chúng tôi với cùng một hệ thống nhắc nhở, không có thêm thông số hay chức năng nào, và yêu cầu họ cùng một câu hỏi cơ bản: “Tôi có $25K để đầu tư và nợ $30K. Hãy xây dựng cho tôi một kế hoạch tài chính.”

OpenAI

Giao diện của ChatGPT gần đây đã được cải tiến một cách thực sự làm mọi thứ trở nên phức tạp hơn. Tùy chọn tạo GPT hiện nay đã được ẩn sau các menu, nhưng khi tìm thấy, nó cung cấp hai lối đi: một cài đặt trò chuyện nơi AI giúp xây dựng người đại diện của bạn, và một cấu hình thủ công cho những người biết chính xác họ muốn gì.

Nền tảng GPT của OpenAI là một chiếc dao đa năng của các khả năng - nó đọc mã, tìm kiếm trên web và xử lý cả việc tạo và phân tích hình ảnh. Quá trình thiết lập được hướng dẫn bởi trí tuệ nhân tạo, đặc biệt phù hợp cho người mới, mặc dù nó có thể cảm thấy hạn chế đối với người dùng có quyền lực tìm kiếm kiểm soát cụ thể. (Ví dụ, Nếu bạn yêu cầu mô hình cụ thể hơn hoặc chi tiết hơn, nó có thể thay đổi toàn bộ yêu cầu hệ thống, mang lại kết quả tồi hơn cho bạn.)

Khi thực sự sử dụng tác nhân, ChatGPT rất dễ hiểu và giao diện sạch sẽ và dễ hiểu.

Các đại lý có thể đọc tài liệu và hiểu hình ảnh một cách tự nhiên, điều này mang lại lợi thế so với các nền tảng khác.

Bây giờ, hãy nói về chất lượng của những người đại diện mà bạn có thể tạo ra với việc gợi ý cơ bản. Nhà tư vấn tài chính của chúng tôi tên là MoneyGPTđã rất ấn tượng, cho chúng tôi một bài học về giải quyết vấn đề có cấu trúc.

Ngoài việc phân bổ chính xác - “20.000 đô la cho nợ lãi suất cao” và phân chia danh mục đầu tư chi tiết - đại lý đã chứng minh lý do tài chính tinh vi. Nó cung cấp một lộ trình năm bước không chỉ là một danh sách, mà là một chiến lược mạch lạc chiếm cả nhu cầu trước mắt và cân nhắc dài hạn.

Sức mạnh của đại lý nằm ở khả năng cân bằng chi tiết với bối cảnh. Trong khi đề xuất các khoản đầu tư cụ thể (40% S&P 500, 30% trái phiếu), nó cũng giải thích lý do đằng sau các phản ứng của mình: “Thanh toán nợ lãi cao giống như nhận được lợi nhuận đảm bảo từ đầu tư.” Sự nhận thức bối cảnh này kéo dài đến kế hoạch dài hạn, đề xuất chu kỳ xem xét định kỳ và các chiến lược thích nghi dựa trên tình hình thay đổi.

Tuy nhiên, sự phong phú thông tin này đã tiết lộ một điểm yếu tiềm ẩn: rủi ro làm cho người dùng bị choáng ngợp với quá nhiều chi tiết cùng lúc. Mặc dù kỹ thuật phong phú, tuy nhiên việc cung cấp liên tục các phân bổ cụ thể, chiến lược đầu tư và kế hoạch giám sát có thể gây khó khăn cho những người mới bắt đầu trong lĩnh vực tài chính.

Bạn có thể đọc kế hoạch đầy đủ của nóđâyvà bạn có thể sử dụng nó bằng cách nhấp vàoliên kết này. Chúng tôi thực sự khuyên bạn nên sử dụng nó.

Google

Nhìn chung, nền tảng tạo ra tác nhân Gemini của Google giành chiến thắng trong cuộc thi sắc đẹp với giao diện mượt mà, trực quan, khiến việc tạo ra tác nhân trở nên quá dễ dàng. Hệ thống hiểu theo lệnh một cách đúng đắn, giúp tránh nhầm lẫn, và giao diện người dùng sáng sủa loại bỏ yếu tố đe dọa từ việc phát triển trí tuệ nhân tạo.

Tuy nhiên, để thu được những thông tin thú vị, nó yêu cầu một lời nhắc chi tiết hơn. Nó không coi mọi thứ là đương nhiên: một lời nhắc ngắn sẽ mang lại cho bạn một phản hồi chất lượng thấp.

Bên trong, nó đóng gói sức mạnh nghiêm túc - tích hợp tìm kiếm web được cung cấp bởi Google, phân tích mã nguồn và khả năng xử lý hình ảnh ngang tầm những gì ChatGPT cung cấp, nhưng chủ yếu dựa trên công nghệ của Microsoft.

Giao diện người dùng của Gemini có cảm giác như được thiết kế bởi những người thực sự hiểu về trải nghiệm người dùng. Giao diện hướng dẫn người dùng với các nhãn rõ ràng và tất cả mọi thứ hiển thị trên chỉ một màn hình.

Cách tiếp cận tinh tế này khiến nó trở nên đặc biệt hấp dẫn đối với người mới, mặc dù người dùng có kinh nghiệm có thể cảm thấy muốn có nhiều kiểm soát cụ thể hơn.

Chúng tôi đã gọi đến đại lý của chúng tôiMoneyGemvà yêu cầu một kế hoạch tài chính. Phương pháp tư vấn của nó đã giới thiệu phương pháp giải quyết vấn đề đặc biệt của Google. Thay vì đưa ra một câu trả lời thẳng thừa, nó dẫn đầu bằng những câu hỏi như “Nợ của bạn là loại nào?” và “Lãi suất của bạn là bao nhiêu?”—cho thấy sự hiểu biết rằng lời khuyên tài chính không phải là một kích cỡ phù hợp cho tất cả.

Sự nhấn mạnh vào việc thu thập ngữ cảnh trước khi cung cấp các khuyến nghị phù hợp với các phương pháp lập kế hoạch tài chính chuyên nghiệp, mặc dù có thể làm khó chịu người dùng muốn tìm kiếm câu trả lời ngay lập tức.

Một câu trả lời không có giá trị. Đại diện cơ bản nói rằng nó không biết đủ về người dùng để cung cấp lời khuyên tài chính tốt. Sau khi yêu cầu nó đưa ra giả định và buộc nó phải đưa ra một kế hoạch có thể phù hợp với hầu hết các tình huống, đại diện đã tạo ra một bản thảo rất thận trọng cho một kế hoạch mà không đưa ra gợi ý cụ thể về các khoản đầu tư nên xem xét.

Tuy nhiên, MoneyGem kết thúc câu trả lời của mình bằng một khuyên nghị tối údvền các tài khoản hội nghị được ơn để thuế như 401(k) hoặc Roth IRA để giảm bị thuế của bạn. Tuyệt với.

Bạn có thể nhấp đâyđể đọc cuộc trò chuyện của chúng tôi với MoneyGem và thử mô hình bằng cách nhấp vào liên kết này.

Mistral AI

Phương pháp tiếp cận việc cấu hình tác nhân của Mistral hơi xa rời sự đơn giản. Công cụ tạo tác nhân được ẩn trong bảng điều khiển của nhà phát triển, với các tùy chọn tùy chỉnh sâu mà có thể khiến người mới hãy sợ nhưng lại làm hài lòng những người tìm hiểu sửa chữa.

Giao diện xây dựng của nó không phải là một phần của LeChat (giao diện chatbot), nhưng sẽ xuất hiện ở đó sau khi agent được tạo.

Một điều chúng tôi thực sự thích là khả năng cung cấp cho công cụ các ví dụ để hình thành hành vi và phong cách phản ứng của đại lý - điều mà hiện tại không có nền tảng nào khác có. Ngoài ra, đây là một lỗi kỳ lạ: Trong khi tạo đại lý của chúng tôi, giao diện người dùng bất ngờ chuyển sang tiếng Pháp, có thể do công ty là người Pháp. Dù vậy, chúng tôi không thể chuyển lại tiếng Anh hoặc tiếng Tây Ban Nha.

Sau khi tạo thành công đại lý, người dùng phải gọi nó trong giao diện chatbot thông thường để làm việc với nó. Họ phải thoát khỏi Le Plateforme và chuyển sang Le Chat, điều này không phải là điều dễ hiểu nhất để làm. Tuy nhiên, giao diện người dùng cho việc sử dụng đại lý khá đơn giản và giống như bất kỳ chatbot AI nào khác.

Chúng tôi đã xây dựng đại lý của mình, và đặt tên là Le Moneyto honor Mistral’s French roots. Its performance clearly showed Mistral’s generalist approach to problem-solving. Its suggestion to “set aside $10,000 for emergencies, $15,000 for debt repayment, and $10,000 for investments” appeared straightforward, but showed that the agents lacked some basic mathematical validation.

Tổng số tiền $35,000 đã vượt quá số tiền khả dụng $10,000, đây là một sai lầm cơ bản mà một số mô hình ngôn ngữ thể hiện khi chúng ưu tiên tính chính xác khái niệm hơn số liệu.

Tuy nhiên, chúng ta phải nhận thức rằng những LLMs hoạt động tốt nhất đã cải thiện rất nhiều và không thất bại ở nhiệm vụ này — ít nhất là không thất bại thường xuyên như Mistral.

Ngoài ra, kế hoạch của nó không được chi tiết lắm, nhưng đó là duy nhất cung cấp các câu hỏi theo dõi có thể làm cho tương tác mượt mà hơn và có thể giúp nó hiểu rõ hơn nhu cầu của người dùng.

Kế hoạch đầy đủ của LeMoney đã sẵn sàngở đâyvà đại lý có sẵn để kiểm tratại đây.

Anthropic

Dự án của Claude cảm giác ít giống như một nền tảng tạo ra đại lý và nhiều hơn là một hệ thống thực hiện nhiệm vụ tinh vi. Giao diện tối giản, gần như quá tối giản, và không cảm thấy trực quan.

Giao diện tối giản này có thể khiến một số người dùng cảm thấy khó hiểu. Nền tảng hiển thị một bố cục tối giản với một trường hướng dẫn “tùy chọn” mà cảm giác như vừa quan trọng vừa không quan trọng: Nếu hướng dẫn được đánh dấu là tùy chọn, thì làm sao trí tuệ nhân tạo biết nó nên làm gì?

Giao diện tối giản của nó cảm thấy lạ lẫm, nhưng Anthropic chưa bao giờ nổi tiếng với sự lựa chọn giao diện người dùng. Cửa sổ cấu hình mô hình cũng là cửa sổ mà bạn sử dụng để khích lệ nó. Khả năng của nó tập trung chủ yếu vào việc diễn dịch mã văn bản, không có gì khác. Tìm kiếm web và xử lý và tạo hình ảnh là những điều phức tạp mà Anthropic để lại cho đối thủ của nó.

Đại lý của chúng tôi, tên là MoneyClaude, không khả dụng cho kiểm tra công cộng vì Anthropic không cho phép. Nó đã có một quan điểm rất thận trọng trong việc cung cấp lời khuyên tài chính với các phản hồi kỹ thuật chính xác nhưng mơ hồ - như ‘duy trì một phương pháp cân đối giữa giảm nợ và tiết kiệm thiết yếu,’ ví dụ.

Nó yêu cầu thông tin bổ sung, nhưng ít nhất đảm bảo cung cấp một chiến lược rất chung chung trong trường hợp thiếu thông tin mà không yêu cầu tương tác tiếp theo, điều này có vẻ tối ưu hơn phương pháp của Google.

Nhấp vào đây để đọckế hoạch đầy đủ.

Hugging Face

Kho lưu trữ mã nguồn mở đứng riêng lẻ như thiên đường dành cho người dùng mạnh mẽ và có thể là cơn ác mộng tiềm năng đối với người mới bắt đầu. Đây là nền tảng duy nhất cho phép người dùng chọn mô hình ngôn ngữ ưa thích của họ, mang lại sự kiểm soát chưa từng có đối với nền tảng của agent.

Ngoài ra, người dùng có hàng chục công cụ khác nhau để tích hợp với đại lý của họ, nhưng chỉ có thể kích hoạt ba trong số chúng cùng một lúc. Hạn chế này buộc phải xem xét cẩn thận về những tính năng quan trọng nhất đối với từng trường hợp sử dụng cụ thể, nhưng đây là điều mà mô hình nào khác cũng không thể cung cấp được.

Tuy nhiên, đây là trải nghiệm có thể tùy chỉnh nhiều nhất trong tất cả các giao diện, với rất nhiều nút để tinh chỉnh. Kết quả là một nền tảng có thể tạo ra các tác nhân chuyên biệt, mạnh mẽ hơn so với các đối thủ cạnh tranh, nhưng chỉ trong tay của một người biết chính xác những gì họ đang làm.

Người dùng có thể thử nghiệm các đại lý của họ trênHuggingChat—Công cụ mơ ước cho người dùng nâng cao. Sau khi tạo đại lý, việc sử dụng rất đơn giản. Giao diện hiển thị một thẻ lớn với tên, mô tả và hình ảnh của Đại lý. Nó cũng cho phép người dùng chia sẻ liên kết của đại lý và điều chỉnh các thiết lập của nó, tất cả đều từ thẻ.

Đặt chúng tôiHuggingMoney’sagent to the test shows that it deals with a time-horizon framework, showing a more sophisticated understanding of financial planning psychology. Its breakdown into “Short-Term (0-24 months), Mid-Term (24-60 months), and Long-Term (beyond 60 months)” mirrors professional financial planning practices.

Đại lý đề xuất phân bổ “$0-$5,000 vào các phương tiện thanh khoản, rủi ro thấp” trong khi duy trì việc thanh toán nợ mạnh mẽ hàng tháng từ “$1,000-$1,500.” Điều này, nhìn sơ qua, là một dấu hiệu của sự hiểu biết tinh tế về quản lý dòng tiền.

Một tính năng thú vị khác là tích hợp các công cụ thực tế với lời khuyên lý thuyết. Không chỉ đề xuất 50/30/20theo quy tắc, nó đề xuất các ứng dụng ngân sách cụ thể và nhấn mạnh việc tối ưu hóa thuế - tạo ra một sự kết nối giữa chiến lược cấp cao và thực thi hàng ngày. Nhược điểm chính? Nó bao gồm giả định về lãi suất nợ mà không tìm kiếm sự làm rõ.

Trong một nỗ lực để cung cấp lời khuyên hữu ích, nó coi nhẹ quá nhiều điều. Sự mong muốn cung cấp phản hồi dù bằng mọi cách cũng có thể được khắc phục bằng việc nhắc nhở, nhưng đây là điều cần xem xét.

Bạn có thể đọc kế hoạch đầy đủ của HuggingMoney đây. Ngoài ra, bạn có thể thử nó bằng cách nhấp vào liên kết này.

Disclaimer:

  1. Bài viết này được sao chép từ [gateGiải mã]. Tất cả bản quyền thuộc về tác giả gốc [Jose Antonio Lanz]. Nếu có ý kiến ​​phản đối về việc in lại này, vui lòng liên hệ với gate.Gate Learnđội ngũ và họ sẽ xử lý nhanh chóng.
  2. Tuyên bố từ chối trách nhiệm: Quan điểm và ý kiến được thể hiện trong bài viết này chỉ thuộc về tác giả và không đại diện cho lời khuyên đầu tư.
  3. Nhóm Gate Learn đã dịch bài viết sang các ngôn ngữ khác nhau. Việc sao chép, phân phối hoặc đạo văn các bài viết đã dịch là cấm trừ khi có đề cập đến.
Comece agora
Inscreva-se e ganhe um cupom de
$100
!