Quelle plateforme construit les meilleurs agents IA ? Nous testons ChatGPT, Claude, Gemini et plus encore

Débutant1/9/2025, 7:43:03 AM
Cet article compare et teste cinq grandes plateformes d'IA (ChatGPT, Google Gemini, HuggingChat, Claude et Mistral AI), évaluant leur facilité d'utilisation et la qualité des résultats dans la création d'agents d'IA.

Une comparaison pratique de cinq plateformes leader révèle laquelle est la meilleure pour héberger vos futurs agents d'IA pour les scénarios quotidiens.

Image créée par Decrypt à l'aide de l'IA

Vous pouvez tout faire avec les agents d'IA : rechercher des informations dans votre bibliothèque de documents, construire du code, gratter le web, obtenir des informations et une analyse tranchante de données complexes, et bien plus encore. Vous pouvez même créer un bureau virtuel avec un groupe d'agents spécialisés dans différentes tâches et les faire travailler main dans la main comme votre propre personnel d'employés numériques spécialisés.

Alors, à quel point est-ce difficile à faire ? Si une personne ordinaire voulait construire son propre conseiller financier en intelligence artificielle, par exemple, quelle plateforme lui conviendrait le mieux ? Pas d'API, pas de codage compliqué, pas de Github—nous voulions juste voir à quel point les meilleures entreprises en IA sont capables de créer des agents d'IA sans que l'utilisateur possède un haut niveau de compétences techniques.

Bien sûr, on obtient ce pour quoi on paie. Dans ce cas, nous voulions également voir s'il y avait une corrélation entre la facilité avec laquelle un profane pouvait configurer un agent et la qualité des résultats obtenus par chacun.

Notre expérience a opposé cinq poids lourds les uns aux autres : ChatGPT, Claude, Huggingface, Mistral AI et Gemini. Chaque plateforme a reçu les mêmes instructions de base pour créer un conseiller financier.

Le test s'est concentré exclusivement sur les capacités prêtes à l'emploi. Que les agents étaient capables de gérer un scénario courant - dans ce cas, aider quelqu'un à équilibrer 25 000 $ d'investissements contre 30 000 $ de dettes. Nous voulions également voir à quel point ils étaient bons pour analyser un graphique de trading. Nous avons évité d'utiliser des outils supplémentaires qui augmenteraient la productivité des agents et avons plutôt essayé d'adopter l'approche la plus simple.

TL;DR Voici ce que nous avons découvert et comment nous avons classé les modèles :

Classement des plateformes

1) GPT de OpenAI (8.5/10)

  • Facilité de configuration: 4/5
  • Qualité des résultats : 4,5/5

ChatGPT est la plateforme la plus équilibrée, offrant la création d'agent sophistiquée avec des options guidées et manuelles pour satisfaire les besoins des débutants complets et des utilisateurs un peu plus expérimentés.

Bien que la récente mise à jour de l'interface ait enfoui certaines fonctionnalités dans des menus, la plateforme excelle dans la traduction des exigences utilisateur complexes en agents fonctionnels. Nous avons testé le modèle en construisant un conseiller financier qui a démontré une conscience contextuelle supérieure et des capacités de résolution de problèmes structurées, fournissant des stratégies détaillées mais cohérentes pour la gestion de la dette et l'allocation des investissements.

2) Google Gemini (7/10)

  • Facilité de configuration: 4/5
  • Qualité des résultats : 3/5

Gemini se distingue par son interface polie et intuitive et son excellente gestion des erreurs. Bien qu'elle nécessite des invites plus détaillées pour des résultats optimaux, son interprétation littérale des instructions crée des résultats cohérents et prévisibles.

L'approche consultative de l'agent en matière de conseil financier met l'accent sur la collecte de contexte avant les recommandations, ce qui reflète les pratiques professionnelles. Cependant, il peut être excessivement conservateur dans ses réponses hors-contexte.

3) Chat câlin (6.5/10)

  • Facilité de configuration: 2/5
  • Qualité des résultats : 4.5/5

La plateforme open-source offre des options de personnalisation et de sélection de modèles inégalées. C'est idéal pour ceux qui recherchent un contrôle granulaire sur chaque aspect, mais ce n'est pas vraiment pour ceux qui recherchent la simplicité. (Pensez à comparer un système Linux à un système macOS). Son cadre de temps sophistiqué et son intégration d'outils pratiques démontrent des capacités avancées.

Nous avons construit un agent pur sans fonctionnalité supplémentaire. Nous avons utilisé le Nemomotron de Nvidia comme LLM de base, et il était assez bon pour correspondre à ChatGPT en termes de qualité de sortie. Pas mal pour le camp open-source.

4) Claude (5.5/10)

  • Facilité de configuration: 2.5/5
  • Qualité des résultats: 3/5

La plateforme d'Anthropic excelle dans des niches spécifiques, en particulier les tâches nécessitant un traitement de contexte approfondi et une interprétation de code. Son interface minimaliste masque des fonctionnalités sophistiquées, mais le champ d'instructions « facultatif » peut confuse les utilisateurs.

Notre agent est resté très conservateur et vague dans ses conseils, mais a démontré une solide conscience du risque et une réflexion stratégique. Il nécessite une incitation plus prudente pour vraiment exploiter son potentiel, mais ce serait injuste pour un test d'adapter une incitation, annulant ainsi la prémisse de supposer des conditions similaires.

5) Mistral AI (5/10)

  • Facilité de configuration: 2,5/5
  • Qualité des résultats : 2.5/5

La plateforme française offre une formation unique basée sur des exemples et des options de personnalisation approfondies. Cependant, son interface axée sur les développeurs et les problèmes occasionnels de changement de langue créent des obstacles pour les utilisateurs non techniques. Il nécessite également de modifier la configuration de l'agent pour différents modèles afin d'effectuer des tâches disparates telles que l'analyse d'images ou la manipulation de code. Ce n'est pas idéal.

Le conseiller financier a montré des promesses en matière de conception d'interaction, mais a eu du mal avec la validation mathématique de base et a offert le pire résultat. Cela ne veut pas dire que le résultat était mauvais, mais lors d'un test à zéro, c'était le moins satisfaisant.

Plongée plus profonde

En tenant compte du classement précédent, il n'y a pas de solution universelle et toutes les plateformes ont leurs avantages et leurs inconvénients. Avec un peu d'engagement et une personnalisation minutieuse des invites, les résultats d'une plateforme peuvent varier et même surpasser les autres. En fin de compte, tous les LLM ont leurs propres styles d'invite respectifs.

Si vous souhaitez en savoir plus sur la logique derrière notre classement, voici un aperçu plus approfondi de notre expérience et des résultats obtenus avec nos agents. Nous avons configuré tous nos agents avec le même système de prompt, sans paramètres ou fonctionnalités supplémentaires, et leur avons posé la même question de base : « J'ai 25 000 $ à investir et je suis endetté de 30 000 $. Élaborez-moi un plan financier. »

OpenAI

L'interface de ChatGPT a récemment été remaniée, ce qui a en réalité rendu les choses plus compliquées. L'option de création de GPT se cache désormais derrière des menus, mais une fois trouvée, elle offre deux voies : une configuration conversationnelle où l'IA aide à construire votre agent, et une configuration manuelle pour ceux qui savent exactement ce qu'ils veulent.

La plateforme GPT d'OpenAI est un couteau suisse de fonctionnalités - elle lit le code, recherche sur le web et gère à la fois la génération et l'analyse d'images. Le processus de configuration guidé par l'IA le rend particulièrement adapté aux nouveaux venus, bien qu'il puisse sembler restrictif pour les utilisateurs expérimentés à la recherche d'un contrôle plus précis. (Par exemple, si vous demandez au modèle d'être plus spécifique ou plus détaillé, il peut modifier l'ensemble de la demande du système, ce qui donne de moins bons résultats.)

Quand il s'agit d'utiliser réellement l'agent, ChatGPT est très simple et l'interface est propre et facile à comprendre.

Les agents peuvent lire nativement des documents et comprendre des images, ce qui leur donne un avantage par rapport à d'autres plateformes.

Maintenant, parlons de la qualité des agents que vous pouvez créer avec des invitations de base. Notre conseiller financier nommé MoneyGPTétait plutôt impressionnant, nous donnant une leçon magistrale dans la résolution de problèmes structurés.

Au-delà de ses affectations précises - «20 000 $ pour les dettes à intérêt élevé» et les répartitions détaillées du portefeuille - l'agent a fait preuve d'un raisonnement financier sophistiqué. Il a fourni une feuille de route en cinq étapes qui n'était pas seulement une liste, mais une stratégie cohérente qui tenait compte à la fois des besoins immédiats et des considérations à long terme.

La force de l'agent résidait dans sa capacité à équilibrer les détails avec le contexte. Tout en recommandant des investissements spécifiques (40% S&P 500, 30% obligations), il expliquait également la logique derrière ses réponses : "Rembourser les dettes à taux d'intérêt élevé revient à obtenir un rendement garanti sur investissement." Cette conscience contextuelle s'étendait à la planification à long terme, suggérant des cycles de révision périodiques et des stratégies adaptatives basées sur les circonstances changeantes.

Cependant, cette abondance d'informations a révélé une faiblesse potentielle : le risque de submerger les utilisateurs avec trop de détails à la fois. Bien que techniquement complet, la livraison en rafale d'allocations spécifiques, de stratégies d'investissement et de plans de surveillance peut s'avérer intimidante pour les novices en finance.

Vous pouvez lire son plan completici, et vous pouvez l'utiliser en cliquant sur ce lien. Nous le recommandons vraiment.

Google

Dans l'ensemble, la plate-forme de création d'agent Gemini de Google remporte le concours de beauté avec une interface polie et intuitive qui rend la création d'agent presque trop facile. Le système prend littéralement les instructions, ce qui aide à éviter la confusion, et son interface utilisateur épurée élimine le facteur d'intimidation du développement de l'IA.

Cependant, il nécessite un rappel plus détaillé afin d'obtenir le meilleur parti. Il ne tient rien pour acquis : un rappel court vous donnera une réponse de faible qualité.

Sous le capot, il renferme une puissance sérieuse, une intégration de recherche web alimentée par Google, une analyse de code et des capacités de traitement d'image qui rivalisent avec les offres de ChatGPT, mais qui dépendent principalement de la technologie de Microsoft.

L'interface utilisateur de Gemini donne l'impression d'avoir été conçue par des personnes qui comprennent réellement l'expérience utilisateur. L'interface guide les utilisateurs avec des libellés clairs et tout est affiché sur une seule écran.

Cette approche polie la rend particulièrement attrayante pour les nouveaux venus, bien que les utilisateurs expérimentés puissent se trouver désireux d'avoir un contrôle plus détaillé.

Nous avons appelé notre agentMoneyGemet a demandé un plan financier. Son approche consultative a mis en valeur la méthodologie distincte de résolution de problèmes de Google. Au lieu de donner une réponse directe, il a posé des questions comme "Quel type de dette est-ce?" et "Quels sont vos taux d'intérêt?" — montrant une compréhension que les conseils financiers ne sont pas universels.

Son accent mis sur la collecte de contexte avant de fournir des recommandations correspond aux pratiques professionnelles de planification financière, bien qu'il puisse frustrer les utilisateurs cherchant des réponses immédiates.

Une réponse sans effort n'était pas utile. L'agent a essentiellement dit qu'il ne connaissait pas suffisamment l'utilisateur pour fournir de bons conseils financiers. Après lui avoir demandé de faire des hypothèses et de lui demander de fournir un plan pouvant s'adapter à la plupart des scénarios, l'agent a généré un projet très conservateur de plan sans donner de suggestions spécifiques sur les investissements à considérer.

MoneyGem, cependant, a terminé sa réponse par une recommandation pour maximiser les comptes à avantages fiscaux comme un 401(k) ou un Roth IRA pour réduire votre fardeau fiscal. Nice.

Vous pouvez cliquer icipour lire notre interaction avec MoneyGem et essayer le modèle vous-même en cliquant surce lien.

Mistral AI

L'approche de Mistral du processus de configuration de l'agent est un peu loin de la simplicité. L'outil de création d'agent est caché dans sa console de développement, avec des options de personnalisation approfondies qui pourraient effrayer les novices mais ravir les bricoleurs.

Son interface de création d'agent ne fait pas partie de LeChat (l'interface de chatbot), mais apparaîtra une fois que l'agent est créé.

Une chose que nous aimons vraiment, c'est la capacité de fournir à l'outil des exemples qui façonnent le comportement de l'agent et son style de réponse - quelque chose qu'aucune autre plateforme n'offre actuellement. De plus, voici un bug étrange : lors de la création de notre agent, l'interface utilisateur est soudainement passée en français, probablement parce que l'entreprise est française. Quoi qu'il en soit, nous n'avons pas pu revenir à l'anglais ou à l'espagnol.

Une fois que l'agent est créé, les utilisateurs doivent l'invoquer dans l'interface normale du chatbot afin de travailler avec lui. Ils doivent quitter Le Plateforme et aller à Le Chat, ce qui n'est pas la chose la plus intuitive à faire. Cependant, l'interface utilisateur pour utiliser l'agent est assez simple et ressemble à n'importe quel autre chatbot IA.

Nous avons construit notre agent et l'avons nommé L'argentpour honorer les racines françaises de Mistral. Ses performances ont clairement montré l'approche généraliste de Mistral en matière de résolution de problèmes. Sa suggestion de « mettre de côté 10 000 $ pour les urgences, 15 000 $ pour le remboursement de la dette et 10 000 $ pour les investissements » semblait simple, mais montrait que les agents manquaient d'une validation mathématique de base.

Le total de 35 000 $ a dépassé les fonds disponibles de 10 000 $, ce qui est une erreur fondamentale que certains modèles linguistiques commettent lorsqu'ils privilégient la correction conceptuelle à l'exactitude numérique.

Cependant, il convient de noter que les LLM les plus performants se sont beaucoup améliorés et ne échouent pas à cette tâche - du moins pas aussi fréquemment que ceux de Mistral.

Autre que cela, son plan n'était pas vraiment détaillé, mais c'était le seul à fournir des questions de suivi qui pourraient rendre l'interaction plus fluide et l'aider à mieux comprendre les besoins de l'utilisateur.

Le plan complet de LeMoney est disponibleiciet l'agent est disponible pour les testsici.

Anthropique

Les projets de Claude ressemblent moins à une plateforme de création d'agents qu'à un système sophistiqué d'exécution de tâches. L'interface est minimale, presque trop minimale, et ne semble pas intuitive.

Cette interface minimaliste pourrait laisser certains utilisateurs perplexe. La plateforme présente une configuration minimaliste avec un champ d'instructions "optionnelles" qui semble à la fois sans importance et crucial en même temps : si les instructions sont qualifiées d'optionnelles, comment l'agent d'IA saura-t-il ce qu'il est censé faire ?

Son interface minimaliste est étrange, mais Anthropic n'a jamais été reconnu pour son goût en matière de choix d'interface utilisateur. La même fenêtre pour configurer le modèle est celle que vous utilisez pour le déclencher. Ses capacités se concentrent principalement sur l'interprétation du code texte, rien d'autre. Les recherches Web et le traitement et la génération d'images sont des fonctionnalités sophistiquées qu'Anthropic laisse à ses concurrents.

Notre agent, nommé MoneyClaude, n'est pas disponible pour les tests publics car Anthropic ne le permet pas. Il a adopté une position très conservatrice tout en fournissant des conseils financiers avec des réponses techniquement précises, mais vagues - comme «maintenir une approche équilibrée entre la réduction de la dette et l'épargne essentielle», par exemple.

Il a demandé des informations supplémentaires, mais a au moins veillé à fournir une stratégie très générique en l'absence de celles-ci sans nécessiter d'interaction supplémentaire, ce qui semble plus optimal que l'approche de Google.

Cliquez ici pour lire son plan complet.

Hugging Face

Le référentiel open-source se distingue comme le paradis des utilisateurs expérimentés - et un cauchemar potentiel pour les débutants. C'est la seule plateforme permettant aux utilisateurs de choisir leur modèle de langage préféré, offrant un contrôle sans précédent sur les bases de l'agent.

De plus, les utilisateurs disposent de dizaines d'outils différents à intégrer avec leurs agents, mais ne peuvent en activer que trois simultanément. Cette limitation oblige à réfléchir attentivement aux fonctionnalités les plus importantes pour chaque cas d'utilisation spécifique, mais c'est quelque chose que aucun autre modèle ne peut offrir.

C'est l'expérience la plus personnalisable de toutes les interfaces, cependant, avec beaucoup de boutons à régler. Le résultat est une plateforme qui peut créer des agents plus puissants et spécialisés que ses concurrents, mais seulement entre les mains de quelqu'un qui sait exactement ce qu'il fait.

Les utilisateurs peuvent essayer leurs agents sur CâlinChat—sans aucun doute le rêve de l'utilisateur avancé. Une fois que vous créez l'agent, son utilisation est très simple. L'interface affiche une grande carte avec le nom, la description et la photo de l'agent. Elle permet également aux utilisateurs de partager le lien de l'agent et de modifier ses paramètres, le tout directement depuis la carte.

Mettre notre HuggingMoneyL'évaluation de l'agent montre qu'il traite d'un cadre temporel, démontrant une compréhension plus sophistiquée de la psychologie de la planification financière. Sa répartition en "court terme (0-24 mois), moyen terme (24-60 mois) et long terme (au-delà de 60 mois)" reflète les pratiques professionnelles de planification financière.

L'agent a suggéré d'allouer "0 à 5 000 $ dans des véhicules liquides à faible risque" tout en maintenant des paiements de dette agressifs de "1 000 à 1 500 $ par mois." À première vue, c'est un signe de compréhension nuancée de la gestion de la trésorerie.

Une autre fonctionnalité intéressante était son intégration d'outils pratiques avec des conseils théoriques. Au-delà de simplement suggérer le 50/30/20En règle générale, il recommande des applications spécifiques de budgétisation et met l'accent sur l'optimisation fiscale, créant ainsi un lien entre la stratégie de haut niveau et l'exécution quotidienne. Le principal inconvénient ? Il inclut des hypothèses sur les taux d'intérêt de la dette sans demander de clarification.

Dans un effort pour fournir des conseils utiles, il prend trop de choses pour acquises. Cette envie de répondre quoi qu'il arrive est réparable avec des incitations, mais il faut en tenir compte.

Vous pouvez lire le plan complet de HuggingMoneyici. De plus, vous pouvez l'essayer en cliquant sur ce lien.

Avertissement :

  1. Cet article est reproduit à partir de [Déchiffrer]. Tous les droits d'auteur appartiennent à l'auteur original [Jose Antonio Lanz]. If there are objections to this reprint, please contact the Gate Learnéquipe, et ils s'en occuperont rapidement.
  2. Clause de non-responsabilité : Les points de vue et opinions exprimés dans cet article sont uniquement ceux de l'auteur et ne constituent pas des conseils en investissement.
  3. L'équipe de traduction de Gate Learn a traduit l'article dans d'autres langues. La copie, la distribution ou le plagiat des articles traduits est interdit sauf mention contraire.

Quelle plateforme construit les meilleurs agents IA ? Nous testons ChatGPT, Claude, Gemini et plus encore

Débutant1/9/2025, 7:43:03 AM
Cet article compare et teste cinq grandes plateformes d'IA (ChatGPT, Google Gemini, HuggingChat, Claude et Mistral AI), évaluant leur facilité d'utilisation et la qualité des résultats dans la création d'agents d'IA.

Une comparaison pratique de cinq plateformes leader révèle laquelle est la meilleure pour héberger vos futurs agents d'IA pour les scénarios quotidiens.

Image créée par Decrypt à l'aide de l'IA

Vous pouvez tout faire avec les agents d'IA : rechercher des informations dans votre bibliothèque de documents, construire du code, gratter le web, obtenir des informations et une analyse tranchante de données complexes, et bien plus encore. Vous pouvez même créer un bureau virtuel avec un groupe d'agents spécialisés dans différentes tâches et les faire travailler main dans la main comme votre propre personnel d'employés numériques spécialisés.

Alors, à quel point est-ce difficile à faire ? Si une personne ordinaire voulait construire son propre conseiller financier en intelligence artificielle, par exemple, quelle plateforme lui conviendrait le mieux ? Pas d'API, pas de codage compliqué, pas de Github—nous voulions juste voir à quel point les meilleures entreprises en IA sont capables de créer des agents d'IA sans que l'utilisateur possède un haut niveau de compétences techniques.

Bien sûr, on obtient ce pour quoi on paie. Dans ce cas, nous voulions également voir s'il y avait une corrélation entre la facilité avec laquelle un profane pouvait configurer un agent et la qualité des résultats obtenus par chacun.

Notre expérience a opposé cinq poids lourds les uns aux autres : ChatGPT, Claude, Huggingface, Mistral AI et Gemini. Chaque plateforme a reçu les mêmes instructions de base pour créer un conseiller financier.

Le test s'est concentré exclusivement sur les capacités prêtes à l'emploi. Que les agents étaient capables de gérer un scénario courant - dans ce cas, aider quelqu'un à équilibrer 25 000 $ d'investissements contre 30 000 $ de dettes. Nous voulions également voir à quel point ils étaient bons pour analyser un graphique de trading. Nous avons évité d'utiliser des outils supplémentaires qui augmenteraient la productivité des agents et avons plutôt essayé d'adopter l'approche la plus simple.

TL;DR Voici ce que nous avons découvert et comment nous avons classé les modèles :

Classement des plateformes

1) GPT de OpenAI (8.5/10)

  • Facilité de configuration: 4/5
  • Qualité des résultats : 4,5/5

ChatGPT est la plateforme la plus équilibrée, offrant la création d'agent sophistiquée avec des options guidées et manuelles pour satisfaire les besoins des débutants complets et des utilisateurs un peu plus expérimentés.

Bien que la récente mise à jour de l'interface ait enfoui certaines fonctionnalités dans des menus, la plateforme excelle dans la traduction des exigences utilisateur complexes en agents fonctionnels. Nous avons testé le modèle en construisant un conseiller financier qui a démontré une conscience contextuelle supérieure et des capacités de résolution de problèmes structurées, fournissant des stratégies détaillées mais cohérentes pour la gestion de la dette et l'allocation des investissements.

2) Google Gemini (7/10)

  • Facilité de configuration: 4/5
  • Qualité des résultats : 3/5

Gemini se distingue par son interface polie et intuitive et son excellente gestion des erreurs. Bien qu'elle nécessite des invites plus détaillées pour des résultats optimaux, son interprétation littérale des instructions crée des résultats cohérents et prévisibles.

L'approche consultative de l'agent en matière de conseil financier met l'accent sur la collecte de contexte avant les recommandations, ce qui reflète les pratiques professionnelles. Cependant, il peut être excessivement conservateur dans ses réponses hors-contexte.

3) Chat câlin (6.5/10)

  • Facilité de configuration: 2/5
  • Qualité des résultats : 4.5/5

La plateforme open-source offre des options de personnalisation et de sélection de modèles inégalées. C'est idéal pour ceux qui recherchent un contrôle granulaire sur chaque aspect, mais ce n'est pas vraiment pour ceux qui recherchent la simplicité. (Pensez à comparer un système Linux à un système macOS). Son cadre de temps sophistiqué et son intégration d'outils pratiques démontrent des capacités avancées.

Nous avons construit un agent pur sans fonctionnalité supplémentaire. Nous avons utilisé le Nemomotron de Nvidia comme LLM de base, et il était assez bon pour correspondre à ChatGPT en termes de qualité de sortie. Pas mal pour le camp open-source.

4) Claude (5.5/10)

  • Facilité de configuration: 2.5/5
  • Qualité des résultats: 3/5

La plateforme d'Anthropic excelle dans des niches spécifiques, en particulier les tâches nécessitant un traitement de contexte approfondi et une interprétation de code. Son interface minimaliste masque des fonctionnalités sophistiquées, mais le champ d'instructions « facultatif » peut confuse les utilisateurs.

Notre agent est resté très conservateur et vague dans ses conseils, mais a démontré une solide conscience du risque et une réflexion stratégique. Il nécessite une incitation plus prudente pour vraiment exploiter son potentiel, mais ce serait injuste pour un test d'adapter une incitation, annulant ainsi la prémisse de supposer des conditions similaires.

5) Mistral AI (5/10)

  • Facilité de configuration: 2,5/5
  • Qualité des résultats : 2.5/5

La plateforme française offre une formation unique basée sur des exemples et des options de personnalisation approfondies. Cependant, son interface axée sur les développeurs et les problèmes occasionnels de changement de langue créent des obstacles pour les utilisateurs non techniques. Il nécessite également de modifier la configuration de l'agent pour différents modèles afin d'effectuer des tâches disparates telles que l'analyse d'images ou la manipulation de code. Ce n'est pas idéal.

Le conseiller financier a montré des promesses en matière de conception d'interaction, mais a eu du mal avec la validation mathématique de base et a offert le pire résultat. Cela ne veut pas dire que le résultat était mauvais, mais lors d'un test à zéro, c'était le moins satisfaisant.

Plongée plus profonde

En tenant compte du classement précédent, il n'y a pas de solution universelle et toutes les plateformes ont leurs avantages et leurs inconvénients. Avec un peu d'engagement et une personnalisation minutieuse des invites, les résultats d'une plateforme peuvent varier et même surpasser les autres. En fin de compte, tous les LLM ont leurs propres styles d'invite respectifs.

Si vous souhaitez en savoir plus sur la logique derrière notre classement, voici un aperçu plus approfondi de notre expérience et des résultats obtenus avec nos agents. Nous avons configuré tous nos agents avec le même système de prompt, sans paramètres ou fonctionnalités supplémentaires, et leur avons posé la même question de base : « J'ai 25 000 $ à investir et je suis endetté de 30 000 $. Élaborez-moi un plan financier. »

OpenAI

L'interface de ChatGPT a récemment été remaniée, ce qui a en réalité rendu les choses plus compliquées. L'option de création de GPT se cache désormais derrière des menus, mais une fois trouvée, elle offre deux voies : une configuration conversationnelle où l'IA aide à construire votre agent, et une configuration manuelle pour ceux qui savent exactement ce qu'ils veulent.

La plateforme GPT d'OpenAI est un couteau suisse de fonctionnalités - elle lit le code, recherche sur le web et gère à la fois la génération et l'analyse d'images. Le processus de configuration guidé par l'IA le rend particulièrement adapté aux nouveaux venus, bien qu'il puisse sembler restrictif pour les utilisateurs expérimentés à la recherche d'un contrôle plus précis. (Par exemple, si vous demandez au modèle d'être plus spécifique ou plus détaillé, il peut modifier l'ensemble de la demande du système, ce qui donne de moins bons résultats.)

Quand il s'agit d'utiliser réellement l'agent, ChatGPT est très simple et l'interface est propre et facile à comprendre.

Les agents peuvent lire nativement des documents et comprendre des images, ce qui leur donne un avantage par rapport à d'autres plateformes.

Maintenant, parlons de la qualité des agents que vous pouvez créer avec des invitations de base. Notre conseiller financier nommé MoneyGPTétait plutôt impressionnant, nous donnant une leçon magistrale dans la résolution de problèmes structurés.

Au-delà de ses affectations précises - «20 000 $ pour les dettes à intérêt élevé» et les répartitions détaillées du portefeuille - l'agent a fait preuve d'un raisonnement financier sophistiqué. Il a fourni une feuille de route en cinq étapes qui n'était pas seulement une liste, mais une stratégie cohérente qui tenait compte à la fois des besoins immédiats et des considérations à long terme.

La force de l'agent résidait dans sa capacité à équilibrer les détails avec le contexte. Tout en recommandant des investissements spécifiques (40% S&P 500, 30% obligations), il expliquait également la logique derrière ses réponses : "Rembourser les dettes à taux d'intérêt élevé revient à obtenir un rendement garanti sur investissement." Cette conscience contextuelle s'étendait à la planification à long terme, suggérant des cycles de révision périodiques et des stratégies adaptatives basées sur les circonstances changeantes.

Cependant, cette abondance d'informations a révélé une faiblesse potentielle : le risque de submerger les utilisateurs avec trop de détails à la fois. Bien que techniquement complet, la livraison en rafale d'allocations spécifiques, de stratégies d'investissement et de plans de surveillance peut s'avérer intimidante pour les novices en finance.

Vous pouvez lire son plan completici, et vous pouvez l'utiliser en cliquant sur ce lien. Nous le recommandons vraiment.

Google

Dans l'ensemble, la plate-forme de création d'agent Gemini de Google remporte le concours de beauté avec une interface polie et intuitive qui rend la création d'agent presque trop facile. Le système prend littéralement les instructions, ce qui aide à éviter la confusion, et son interface utilisateur épurée élimine le facteur d'intimidation du développement de l'IA.

Cependant, il nécessite un rappel plus détaillé afin d'obtenir le meilleur parti. Il ne tient rien pour acquis : un rappel court vous donnera une réponse de faible qualité.

Sous le capot, il renferme une puissance sérieuse, une intégration de recherche web alimentée par Google, une analyse de code et des capacités de traitement d'image qui rivalisent avec les offres de ChatGPT, mais qui dépendent principalement de la technologie de Microsoft.

L'interface utilisateur de Gemini donne l'impression d'avoir été conçue par des personnes qui comprennent réellement l'expérience utilisateur. L'interface guide les utilisateurs avec des libellés clairs et tout est affiché sur une seule écran.

Cette approche polie la rend particulièrement attrayante pour les nouveaux venus, bien que les utilisateurs expérimentés puissent se trouver désireux d'avoir un contrôle plus détaillé.

Nous avons appelé notre agentMoneyGemet a demandé un plan financier. Son approche consultative a mis en valeur la méthodologie distincte de résolution de problèmes de Google. Au lieu de donner une réponse directe, il a posé des questions comme "Quel type de dette est-ce?" et "Quels sont vos taux d'intérêt?" — montrant une compréhension que les conseils financiers ne sont pas universels.

Son accent mis sur la collecte de contexte avant de fournir des recommandations correspond aux pratiques professionnelles de planification financière, bien qu'il puisse frustrer les utilisateurs cherchant des réponses immédiates.

Une réponse sans effort n'était pas utile. L'agent a essentiellement dit qu'il ne connaissait pas suffisamment l'utilisateur pour fournir de bons conseils financiers. Après lui avoir demandé de faire des hypothèses et de lui demander de fournir un plan pouvant s'adapter à la plupart des scénarios, l'agent a généré un projet très conservateur de plan sans donner de suggestions spécifiques sur les investissements à considérer.

MoneyGem, cependant, a terminé sa réponse par une recommandation pour maximiser les comptes à avantages fiscaux comme un 401(k) ou un Roth IRA pour réduire votre fardeau fiscal. Nice.

Vous pouvez cliquer icipour lire notre interaction avec MoneyGem et essayer le modèle vous-même en cliquant surce lien.

Mistral AI

L'approche de Mistral du processus de configuration de l'agent est un peu loin de la simplicité. L'outil de création d'agent est caché dans sa console de développement, avec des options de personnalisation approfondies qui pourraient effrayer les novices mais ravir les bricoleurs.

Son interface de création d'agent ne fait pas partie de LeChat (l'interface de chatbot), mais apparaîtra une fois que l'agent est créé.

Une chose que nous aimons vraiment, c'est la capacité de fournir à l'outil des exemples qui façonnent le comportement de l'agent et son style de réponse - quelque chose qu'aucune autre plateforme n'offre actuellement. De plus, voici un bug étrange : lors de la création de notre agent, l'interface utilisateur est soudainement passée en français, probablement parce que l'entreprise est française. Quoi qu'il en soit, nous n'avons pas pu revenir à l'anglais ou à l'espagnol.

Une fois que l'agent est créé, les utilisateurs doivent l'invoquer dans l'interface normale du chatbot afin de travailler avec lui. Ils doivent quitter Le Plateforme et aller à Le Chat, ce qui n'est pas la chose la plus intuitive à faire. Cependant, l'interface utilisateur pour utiliser l'agent est assez simple et ressemble à n'importe quel autre chatbot IA.

Nous avons construit notre agent et l'avons nommé L'argentpour honorer les racines françaises de Mistral. Ses performances ont clairement montré l'approche généraliste de Mistral en matière de résolution de problèmes. Sa suggestion de « mettre de côté 10 000 $ pour les urgences, 15 000 $ pour le remboursement de la dette et 10 000 $ pour les investissements » semblait simple, mais montrait que les agents manquaient d'une validation mathématique de base.

Le total de 35 000 $ a dépassé les fonds disponibles de 10 000 $, ce qui est une erreur fondamentale que certains modèles linguistiques commettent lorsqu'ils privilégient la correction conceptuelle à l'exactitude numérique.

Cependant, il convient de noter que les LLM les plus performants se sont beaucoup améliorés et ne échouent pas à cette tâche - du moins pas aussi fréquemment que ceux de Mistral.

Autre que cela, son plan n'était pas vraiment détaillé, mais c'était le seul à fournir des questions de suivi qui pourraient rendre l'interaction plus fluide et l'aider à mieux comprendre les besoins de l'utilisateur.

Le plan complet de LeMoney est disponibleiciet l'agent est disponible pour les testsici.

Anthropique

Les projets de Claude ressemblent moins à une plateforme de création d'agents qu'à un système sophistiqué d'exécution de tâches. L'interface est minimale, presque trop minimale, et ne semble pas intuitive.

Cette interface minimaliste pourrait laisser certains utilisateurs perplexe. La plateforme présente une configuration minimaliste avec un champ d'instructions "optionnelles" qui semble à la fois sans importance et crucial en même temps : si les instructions sont qualifiées d'optionnelles, comment l'agent d'IA saura-t-il ce qu'il est censé faire ?

Son interface minimaliste est étrange, mais Anthropic n'a jamais été reconnu pour son goût en matière de choix d'interface utilisateur. La même fenêtre pour configurer le modèle est celle que vous utilisez pour le déclencher. Ses capacités se concentrent principalement sur l'interprétation du code texte, rien d'autre. Les recherches Web et le traitement et la génération d'images sont des fonctionnalités sophistiquées qu'Anthropic laisse à ses concurrents.

Notre agent, nommé MoneyClaude, n'est pas disponible pour les tests publics car Anthropic ne le permet pas. Il a adopté une position très conservatrice tout en fournissant des conseils financiers avec des réponses techniquement précises, mais vagues - comme «maintenir une approche équilibrée entre la réduction de la dette et l'épargne essentielle», par exemple.

Il a demandé des informations supplémentaires, mais a au moins veillé à fournir une stratégie très générique en l'absence de celles-ci sans nécessiter d'interaction supplémentaire, ce qui semble plus optimal que l'approche de Google.

Cliquez ici pour lire son plan complet.

Hugging Face

Le référentiel open-source se distingue comme le paradis des utilisateurs expérimentés - et un cauchemar potentiel pour les débutants. C'est la seule plateforme permettant aux utilisateurs de choisir leur modèle de langage préféré, offrant un contrôle sans précédent sur les bases de l'agent.

De plus, les utilisateurs disposent de dizaines d'outils différents à intégrer avec leurs agents, mais ne peuvent en activer que trois simultanément. Cette limitation oblige à réfléchir attentivement aux fonctionnalités les plus importantes pour chaque cas d'utilisation spécifique, mais c'est quelque chose que aucun autre modèle ne peut offrir.

C'est l'expérience la plus personnalisable de toutes les interfaces, cependant, avec beaucoup de boutons à régler. Le résultat est une plateforme qui peut créer des agents plus puissants et spécialisés que ses concurrents, mais seulement entre les mains de quelqu'un qui sait exactement ce qu'il fait.

Les utilisateurs peuvent essayer leurs agents sur CâlinChat—sans aucun doute le rêve de l'utilisateur avancé. Une fois que vous créez l'agent, son utilisation est très simple. L'interface affiche une grande carte avec le nom, la description et la photo de l'agent. Elle permet également aux utilisateurs de partager le lien de l'agent et de modifier ses paramètres, le tout directement depuis la carte.

Mettre notre HuggingMoneyL'évaluation de l'agent montre qu'il traite d'un cadre temporel, démontrant une compréhension plus sophistiquée de la psychologie de la planification financière. Sa répartition en "court terme (0-24 mois), moyen terme (24-60 mois) et long terme (au-delà de 60 mois)" reflète les pratiques professionnelles de planification financière.

L'agent a suggéré d'allouer "0 à 5 000 $ dans des véhicules liquides à faible risque" tout en maintenant des paiements de dette agressifs de "1 000 à 1 500 $ par mois." À première vue, c'est un signe de compréhension nuancée de la gestion de la trésorerie.

Une autre fonctionnalité intéressante était son intégration d'outils pratiques avec des conseils théoriques. Au-delà de simplement suggérer le 50/30/20En règle générale, il recommande des applications spécifiques de budgétisation et met l'accent sur l'optimisation fiscale, créant ainsi un lien entre la stratégie de haut niveau et l'exécution quotidienne. Le principal inconvénient ? Il inclut des hypothèses sur les taux d'intérêt de la dette sans demander de clarification.

Dans un effort pour fournir des conseils utiles, il prend trop de choses pour acquises. Cette envie de répondre quoi qu'il arrive est réparable avec des incitations, mais il faut en tenir compte.

Vous pouvez lire le plan complet de HuggingMoneyici. De plus, vous pouvez l'essayer en cliquant sur ce lien.

Avertissement :

  1. Cet article est reproduit à partir de [Déchiffrer]. Tous les droits d'auteur appartiennent à l'auteur original [Jose Antonio Lanz]. If there are objections to this reprint, please contact the Gate Learnéquipe, et ils s'en occuperont rapidement.
  2. Clause de non-responsabilité : Les points de vue et opinions exprimés dans cet article sont uniquement ceux de l'auteur et ne constituent pas des conseils en investissement.
  3. L'équipe de traduction de Gate Learn a traduit l'article dans d'autres langues. La copie, la distribution ou le plagiat des articles traduits est interdit sauf mention contraire.
今すぐ始める
登録して、
$100
のボーナスを獲得しよう!