Platform mana yang Membangun Agen AI Terbaik? Kami Menguji ChatGPT, Claude, Gemini dan Lainnya

Pemula1/9/2025, 7:43:03 AM
Artikel ini membandingkan dan menguji lima platform AI utama (ChatGPT, Google Gemini, HuggingChat, Claude, dan Mistral AI), mengevaluasi kemudahan penggunaan dan kualitas hasil dalam membuat agen AI.

Perbandingan praktis dari lima platform terkemuka mengungkapkan mana yang terbaik untuk meng-host agen AI Anda di masa depan untuk skenario sehari-hari.

Gambar dibuat oleh Decrypt menggunakan AI

Anda dapat melakukan apa saja dengan agen AI: mencari informasi dalam perpustakaan dokumen Anda, membangun kode, mengumpulkan data web, mendapatkan wawasan dan analisis tajam dari data kompleks, dan banyak lagi. Anda bahkan dapat membuat kantor virtual dengan sekelompok agen yang ahli dalam berbagai tugas dan membuat mereka bekerja sama seperti staf karyawan digital khusus Anda sendiri.

Jadi seberapa sulit melakukan ini? Jika orang biasa ingin membangun penasihat keuangan AI mereka sendiri, misalnya, platform mana yang akan melayani mereka dengan baik? Tanpa API, tanpa pemrograman aneh, tanpa Github - kami hanya ingin melihat seberapa baik perusahaan AI terbaik dalam menciptakan agen AI tanpa pengguna memiliki tingkat keterampilan teknis yang tinggi.

Tentu saja, Anda mendapatkan apa yang Anda bayar. Dalam hal ini, kami juga ingin melihat apakah ada korelasi antara seberapa mudah bagi orang awam untuk mengatur agen, dan kualitas hasil yang masing-masing hasilkan.

Eksperimen kami mempertaruhkan lima platform besar satu sama lain: ChatGPT, Claude, Huggingface, Mistral AI, dan Gemini. Setiap platform mendapatkan instruksi dasar yang sama untuk membuat penasihat keuangan.

Tes ini hanya berfokus pada kemampuan standar yang sudah ada. Apakah agen mampu menangani skenario umum - dalam hal ini, membantu seseorang menyeimbangkan $25,000 investasi dengan $30,000 hutang. Kami juga ingin melihat seberapa baik agen tersebut dalam menganalisis grafik perdagangan. Kami menghindari penggunaan alat tambahan yang dapat meningkatkan produktivitas agen dan mencoba mengambil pendekatan yang paling sederhana.

TL;DR Ini adalah apa yang kami temukan dan bagaimana kami menilai model-model tersebut:

Peringkat platform

1) GPT OpenAI (8.5/10)

  • Kemudahan Pengaturan: 4/5
  • Kualitas Hasil: 4.5/5

ChatGPT adalah platform yang paling seimbang, menawarkan penciptaan agen yang canggih dengan opsi yang dipandu maupun manual untuk memenuhi kebutuhan total noobs dan pengguna yang sedikit lebih berpengalaman sama-sama.

Sementara pembaruan antarmuka terbaru menyembunyikan beberapa fitur di menu, platform ini unggul dalam menerjemahkan persyaratan pengguna yang kompleks menjadi agen fungsional. Kami menguji model ini dengan membangun penasihat keuangan yang menunjukkan kesadaran kontekstual yang superior dan kemampuan pemecahan masalah yang terstruktur, memberikan strategi rinci namun koheren untuk manajemen utang dan alokasi investasi.

2) Google Gemini (7/10)

  • Kemudahan Pengaturan: 4/5
  • Kualitas Hasil: 3/5

Gemini menonjol dengan antarmuka yang rapi dan intuitif serta penanganan kesalahan yang sangat baik. Meskipun memerlukan instruksi yang lebih rinci untuk hasil optimal, interpretasi literal dari instruksi menciptakan hasil yang konsisten dan dapat diprediksi.

Pendekatan konsultatif agen terhadap nasihat keuangan menekankan pengumpulan konteks sebelum rekomendasi, mencerminkan praktik profesional. Namun, dapat terlalu konservatif dalam respons zero-shot-nya.

3) HuggingChat (6.5/10)

  • Kemudahan Pengaturan: 2/5
  • Kualitas Hasil: 4.5/5

Platform sumber terbuka menawarkan opsi penyesuaian dan pemilihan model yang tak tertandingi. Hal ini bagus bagi mereka yang mencari kontrol terperinci atas setiap aspek, tetapi bukan untuk mereka yang mencari kesederhanaan. (Bandingkan seperti membandingkan sistem Linux vs. macOS). Kerangka waktu yang canggih dan integrasi alat praktis menunjukkan kemampuan canggih.

Kami membangun agen murni tanpa fungsionalitas tambahan apa pun. Kami menggunakan Nvidia's Nemomotron sebagai dasar LLM, dan itu cukup baik untuk menyamai ChatGPT dalam kualitas output. Tidak buruk untuk kamp open-source.

4) Claude (5.5/10)

  • Kemudahan Penyiapan: 2.5/5
  • Kualitas Hasil: 3/5

Platform Anthropic sangat unggul dalam niche tertentu, terutama tugas-tugas yang memerlukan pemrosesan konteks yang ekstensif dan interpretasi kode. Antarmuka minimalisnya menyembunyikan kemampuan yang canggih, tetapi kolom instruksi “opsional” dapat membingungkan pengguna.

Agen kami tetap sangat konservatif dan samar dalam memberikan nasihatnya, namun menunjukkan kesadaran risiko yang solid dan pemikiran strategis. Diperlukan dorongan yang lebih hati-hati agar benar-benar dapat memeras potensinya, namun akan tidak adil bagi sebuah tes untuk menyesuaikan suatu dorongan, yang mengabaikan premis mengasumsikan kondisi yang serupa.

5) Mistral AI (5/10)

  • Setup Mudah: 2.5/5
  • Kualitas Hasil: 2.5/5

Platform Prancis menawarkan pembelajaran berbasis contoh unik dan opsi kustomisasi yang mendalam. Namun, antarmuka yang berfokus pada pengembang dan masalah beralih bahasa sesekali menciptakan hambatan bagi pengguna non-teknis. Ini juga memerlukan modifikasi konfigurasi agen untuk model yang berbeda untuk melakukan tugas yang berbeda seperti menganalisis gambar atau menangani kode. Ini tidak ideal.

Penasihat keuangan menunjukkan potensi dalam desain interaksi, tetapi kesulitan dalam validasi matematika dasar dan menawarkan hasil terburuk. Ini bukan berarti hasilnya buruk, tetapi dalam uji zero-shot, ini adalah yang paling tidak memuaskan.

Dalam-dalam

Mempertimbangkan peringkat sebelumnya, tidak ada solusi yang cocok untuk semua dan semua platform memiliki kelebihan dan kekurangan masing-masing. Dengan beberapa dedikasi dan penyesuaian prompt yang hati-hati, hasil dari satu platform mungkin bervariasi dan bahkan mengalahkan yang lain. Pada akhirnya, semua LLM memiliki gaya mempromosikan mereka sendiri.

Jika Anda ingin tahu lebih banyak tentang alasan di balik peringkat kami, berikut adalah pandangan yang lebih mendalam tentang pengalaman kami dan hasil yang kami dapatkan dengan agen kami. Kami mengonfigurasi semua agen kami dengan prompt sistem yang sama, tanpa parameter fungsi tambahan, dan mengajukan pertanyaan dasar yang sama kepada mereka: "Saya memiliki $ 25K untuk diinvestasikan dan saya berhutang $ 30K. Bangunkan saya rencana keuangan."

OpenAI

Antarmuka ChatGPT baru-baru ini mendapatkan perubahan tampilan yang sebenarnya membuat segalanya menjadi lebih rumit. Opsi pembuatan GPT sekarang tersembunyi di balik menu, tetapi setelah ditemukan, menawarkan dua jalur: pengaturan percakapan di mana AI membantu membangun agen Anda, dan konfigurasi manual untuk mereka yang tahu persis apa yang mereka inginkan.

Platform GPT OpenAI adalah pisau Swiss Army dari kemampuan - membaca kode, mencari di web, dan menangani pembuatan dan analisis gambar. Proses pengaturan yang dipandu AI membuatnya sangat cocok untuk pemula, meskipun mungkin terasa terbatas bagi pengguna kuat yang mencari kontrol granular. (Misalnya, jika Anda meminta model menjadi lebih spesifik atau lebih terperinci, itu mungkin mengubah seluruh sistem prompt, memberikan hasil yang lebih buruk).

Ketika sampai pada penggunaan agen, ChatGPT sangat mudah dipahami dan antarmukanya bersih serta mudah dipahami.

Agen-agen dapat secara alami membaca dokumen dan memahami gambar, yang memberikan keuntungan dibandingkan dengan platform lainnya.

Sekarang, mari kita bicara tentang kualitas agen yang dapat Anda buat dengan permintaan dasar. Penasihat keuangan kami bernama MoneyGPTsangat mengesankan, memberi kami pelajaran langsung dalam pemecahan masalah struktural.

Di luar alokasi yang tepat - “$20.000 untuk utang bunga tinggi” dan pembagian portofolio yang terperinci - agen tersebut menunjukkan pemikiran keuangan yang canggih. Ini memberikan peta jalan lima langkah yang bukan hanya daftar, tetapi strategi yang koheren yang mempertimbangkan kebutuhan segera dan pertimbangan jangka panjang.

Kekuatan agen terletak pada kemampuannya untuk menyeimbangkan detail dengan konteks. Sementara merekomendasikan investasi tertentu (40% S&P 500, 30% obligasi), ia juga menjelaskan alasan di balik responsnya: “Membayar hutang bunga tinggi sama dengan mendapatkan pengembalian investasi yang dijamin.” Kesadaran kontekstual ini diperluas ke perencanaan jangka panjang, menyarankan siklus ulasan berkala dan strategi adaptif berdasarkan perubahan keadaan.

Namun, kelebihan informasi ini mengungkapkan kelemahan potensial: risiko menghantui pengguna dengan terlalu banyak detail sekaligus. Meskipun secara teknis komprehensif, pengiriman cepat alokasi khusus, strategi investasi, dan rencana pemantauan mungkin terasa menakutkan bagi pemula di bidang keuangan.

Anda dapat membaca rencana lengkapnya di sini, dan Anda dapat menggunakannya dengan mengkliktautannya iniKami sangat merekomendasikannya.

Google

Secara keseluruhan, platform pembuatan agen Gemini dari Google memenangkan kontes kecantikan dengan antarmuka yang terlihat rapi dan intuitif yang membuat pembuatan agen terasa sangat mudah. Sistem ini mengikuti instruksi secara harfiah, yang membantu menghindari kebingungan, dan antarmuka yang bersih menghilangkan faktor intimidasi dari pengembangan AI.

Namun, dibutuhkan instruksi yang lebih rinci untuk menghasilkan hasil yang baik. Tidak mengambil sesuatu sebagai kepastian: instruksi singkat akan memberikan respons berkualitas rendah.

Di balik layar, itu mengemas otot serius—integrasi pencarian web yang didukung Google, analisis kode, dan kemampuan pemrosesan gambar yang menyaingi penawaran ChatGPT, tetapi sebagian besar mengandalkan teknologi Microsoft.

Antarmuka pengguna Gemini terasa seperti dirancang oleh orang-orang yang benar-benar memahami pengalaman pengguna. Antarmuka ini memandu pengguna dengan label yang jelas dan semua ditampilkan hanya dalam satu layar.

Pendekatan yang terampil ini membuatnya sangat menarik bagi para pemula, meskipun pengguna berpengalaman mungkin merasa ingin memiliki lebih banyak kontrol yang lebih terperinci.

Kami memanggil agen kamiMoneyGemdan meminta rencana keuangan. Pendekatannya yang konsultatif memperlihatkan metodologi pemecahan masalah yang berbeda dari Google. Alih-alih memberikan jawaban langsung, itu memulai dengan pertanyaan seperti "Utang jenis apa itu?" dan "Apa suku bunga Anda?"—menunjukkan pemahaman bahwa saran keuangan bukanlah satu ukuran cocok untuk semua.

Penekanan pada pengumpulan konteks sebelum memberikan rekomendasi sejalan dengan praktik perencanaan keuangan profesional, meskipun hal tersebut mungkin menyebalkan pengguna yang mencari jawaban segera.

Jawaban tanpa nol tidak berguna. Agen pada dasarnya mengatakan bahwa ia tidak cukup mengenal pengguna untuk memberikan saran keuangan yang baik. Setelah memintanya untuk membuat asumsi dan memaksanya untuk menyediakan rencana yang dapat cocok dalam sebagian besar skenario, agen tersebut menghasilkan draf rencana yang sangat konservatif tanpa memberikan saran-saran spesifik tentang investasi mana yang harus dipertimbangkan.

MoneyGem, bagaimanapun, mengakhiri jawabannya dengan rekomendasi untuk memaksimalkan akun berkeuntungan pajak seperti 401(k) atau Roth IRA untuk mengurangi beban pajak Anda. Bagus.

Anda dapat mengklik di siniuntuk membaca interaksi kami dengan MoneyGem, dan mencoba model ini sendiri dengan mengkliktautan ini.

Mistral AI

Pendekatan Mistral terhadap proses konfigurasi agen agak jauh dari kesederhanaan. Alat pembuatan agen disembunyikan di konsol pengembangnya, dengan opsi kustomisasi yang mendalam yang mungkin membuat pemula takut tetapi menyenangkan bagi tukang mainan.

Antarmuka pembangunan agennya bukan bagian dari LeChat (antarmuka chatbot), tetapi akan muncul di sana setelah agen dibuat.

Salah satu hal yang benar-benar kami sukai adalah kemampuan untuk memberi contoh kepada alat tersebut yang membentuk perilaku agen dan gaya respons—sesuatu yang saat ini tidak ditawarkan oleh platform lain. Juga, ada bug aneh: Saat membuat agen kami, antarmuka pengguna tiba-tiba beralih ke bahasa Perancis, mungkin karena perusahaannya Perancis. Terlepas dari itu, kami tidak dapat beralih kembali ke bahasa Inggris atau Spanyol.

Setelah agen dibuat, pengguna harus memanggilnya di antarmuka chatbot normal untuk dapat menggunakannya. Mereka harus keluar dari Le Plateforme dan pergi ke Le Chat, yang tidak hal yang paling intuitif untuk dilakukan. Namun, antarmuka pengguna untuk menggunakan agen ini cukup sederhana dan terasa seperti chatbot AI lainnya.

Kami membangun agen kami, dan memberinya nama Le Moneyuntuk menghormati akar Perancis Mistral. Kinerjanya jelas menunjukkan pendekatan umum Mistral dalam memecahkan masalah. Sarannya untuk "menyisihkan $10,000 untuk keadaan darurat, $15,000 untuk pembayaran utang, dan $10,000 untuk investasi" terlihat sederhana, tetapi menunjukkan bahwa agen kurang memiliki validasi matematika dasar.

Total $35.000 melebihi dana yang tersedia sebesar $10.000, yang merupakan kesalahan dasar yang beberapa model bahasa tunjukkan ketika mereka memprioritaskan kebenaran konseptual daripada akurasi numerik.

Namun, perlu dicatat bahwa LLM dengan kinerja terbaik telah banyak membaik dan tidak gagal dalam tugas ini - setidaknya tidak se-sering Mistral.

Selain itu, rencananya tidak terlalu terperinci, tetapi hanya satu-satunya yang menyediakan pertanyaan tindak lanjut yang dapat membuat interaksi lebih lancar dan dapat membantu memahami kebutuhan pengguna dengan lebih baik.

Rencana penuh LeMoney tersediadi sinidan agen tersedia untuk pengujiandi sini.

Antropik

Proyek-proyek Claude terasa kurang seperti platform penciptaan agen dan lebih seperti sistem pelaksanaan tugas yang canggih. Antarmuka minimalis, hampir terlalu minimalis, dan tidak terasa intuitif.

Antarmuka minimalis ini mungkin membuat beberapa pengguna menggaruk-garuk kepala. Platform ini menyajikan pengaturan telanjang dengan bidang instruksi "opsional" yang entah bagaimana terasa tidak penting dan krusial pada saat yang bersamaan: Jika instruksi diberi label sebagai opsional, lalu bagaimana agen AI tahu apa yang seharusnya dilakukan?

Antarmuka minimalisnya terasa aneh, tetapi Anthropic tidak pernah dikenal karena selera pilihannya dalam antarmuka pengguna. Jendela yang sama untuk mengonfigurasi model adalah yang Anda gunakan untuk memicu model tersebut. Kemampuannya terutama berfokus pada interpretasi kode teks, tidak ada yang lain. Pencarian web dan pengolahan dan generasi gambar adalah hal-hal yang menarik yang Anthropic tinggalkan untuk pesaingnya.

Agen kami, bernama MoneyClaude, tidak tersedia untuk pengujian publik karena Anthropic tidak mengizinkannya. Anthropic mengambil sikap yang sangat konservatif dalam memberikan saran keuangan dengan jawaban yang teknis akurat, tetapi samar-samar seperti "pertahankan pendekatan seimbang antara pengurangan hutang dan tabungan penting," misalnya.

Permintaan informasi tambahan, namun setidaknya pastikan untuk memberikan strategi yang sangat umum dalam ketiadaannya tanpa memerlukan interaksi lebih lanjut, yang tampaknya lebih optimal daripada pendekatan Google.

Klik di sini untuk membacanya rencana lengkap.

Hugging Face

Repositori sumber terbuka berdiri sendiri sebagai surga pengguna berpengalaman - dan mimpi buruk potensial bagi pemula. Ini adalah satu-satunya platform yang memungkinkan pengguna memilih model bahasa yang mereka inginkan, menawarkan kontrol tak tertandingi atas dasar agen.

Selain itu, pengguna memiliki puluhan alat berbeda untuk diintegrasikan dengan agen mereka, tetapi hanya dapat mengaktifkan tiga di antaranya secara bersamaan. Pembatasan ini memaksa pertimbangan yang cermat tentang fitur mana yang paling penting untuk setiap kasus penggunaan tertentu, tetapi ini adalah sesuatu yang model lain tidak dapat tawarkan.

Ini adalah pengalaman yang paling dapat disesuaikan dari semua antarmuka, namun, dengan banyak tuas untuk disesuaikan. Hasilnya adalah platform yang dapat menciptakan agen khusus yang lebih kuat daripada pesaingnya, tetapi hanya di tangan seseorang yang tahu persis apa yang mereka lakukan.

Pengguna dapat mencoba agen mereka di MemelukNgobrol—tanpa ragu-ragu impian pengguna berdaya. Setelah Anda membuat agen, menggunakannya sangat mudah. Antarmuka menampilkan kartu besar dengan nama Agen, deskripsi, dan foto. Ini juga memungkinkan pengguna untuk berbagi link agen dan mengatur pengaturannya, semua dari kartu tersebut.

MenggunakanHuggingMoney'sagen yang diuji menunjukkan bahwa ia menghadapi kerangka waktu, menunjukkan pemahaman yang lebih canggih tentang psikologi perencanaan keuangan. Pembagiannya menjadi "Jangka Pendek (0-24 bulan), Menengah (24-60 bulan), dan Jangka Panjang (lebih dari 60 bulan)" mencerminkan praktik perencanaan keuangan profesional.

Agen menyarankan untuk mengalokasikan "$0-$5,000 ke dalam kendaraan likuid yang berisiko rendah" sambil mempertahankan pembayaran utang yang agresif sebesar "$1,000-$1,500 per bulan". Ini, pada pandangan pertama, merupakan tanda pemahaman nuansa tentang manajemen arus kas.

Fitur menarik lainnya adalah integrasinya antara alat-alat praktis dengan saran teoritis. Lebih dari sekadar menyarankan 50/30/20Aturan tersebut merekomendasikan aplikasi anggaran tertentu dan menekankan optimasi pajak - menciptakan jembatan antara strategi tingkat tinggi dan pelaksanaan sehari-hari. Kekurangan utamanya? Itu termasuk asumsi tentang tingkat bunga utang tanpa mencari klarifikasi.

Dalam upaya untuk memberikan saran yang berguna, terlalu banyak hal yang dianggap sebagai hal yang pasti. Hal ini, keinginan untuk memberikan balasan apa pun, dapat diperbaiki dengan dorongan, tetapi merupakan sesuatu yang perlu dipertimbangkan.

Anda dapat membaca rencana lengkap HuggingMoneydi sini. Selain itu, Anda dapat mencobanya dengan mengklik tautan ini.

Penyangkalan:

  1. Artikel ini dicetak ulang dari [gateDecrypt]. Seluruh hak cipta milik penulis asli [ Jose Antonio Lanz]. Jika ada keberatan terkait cetakan ulang ini, silakan hubungi Gate Belajartim, dan mereka akan menanganinya dengan segera.
  2. Penolakan Tanggung Jawab atas Kewajiban: Pandangan dan opini yang terdapat dalam artikel ini semata-mata merupakan pandangan penulis dan tidak merupakan nasihat investasi.
  3. Tim Learn gate menerjemahkan artikel ini ke dalam bahasa lain. Menyalin, mendistribusikan, atau melakukan plagiarisme terhadap artikel yang diterjemahkan dilarang kecuali disebutkan.

Mời người khác bỏ phiếu

Nội dung

Platform mana yang Membangun Agen AI Terbaik? Kami Menguji ChatGPT, Claude, Gemini dan Lainnya

Pemula1/9/2025, 7:43:03 AM
Artikel ini membandingkan dan menguji lima platform AI utama (ChatGPT, Google Gemini, HuggingChat, Claude, dan Mistral AI), mengevaluasi kemudahan penggunaan dan kualitas hasil dalam membuat agen AI.

Perbandingan praktis dari lima platform terkemuka mengungkapkan mana yang terbaik untuk meng-host agen AI Anda di masa depan untuk skenario sehari-hari.

Gambar dibuat oleh Decrypt menggunakan AI

Anda dapat melakukan apa saja dengan agen AI: mencari informasi dalam perpustakaan dokumen Anda, membangun kode, mengumpulkan data web, mendapatkan wawasan dan analisis tajam dari data kompleks, dan banyak lagi. Anda bahkan dapat membuat kantor virtual dengan sekelompok agen yang ahli dalam berbagai tugas dan membuat mereka bekerja sama seperti staf karyawan digital khusus Anda sendiri.

Jadi seberapa sulit melakukan ini? Jika orang biasa ingin membangun penasihat keuangan AI mereka sendiri, misalnya, platform mana yang akan melayani mereka dengan baik? Tanpa API, tanpa pemrograman aneh, tanpa Github - kami hanya ingin melihat seberapa baik perusahaan AI terbaik dalam menciptakan agen AI tanpa pengguna memiliki tingkat keterampilan teknis yang tinggi.

Tentu saja, Anda mendapatkan apa yang Anda bayar. Dalam hal ini, kami juga ingin melihat apakah ada korelasi antara seberapa mudah bagi orang awam untuk mengatur agen, dan kualitas hasil yang masing-masing hasilkan.

Eksperimen kami mempertaruhkan lima platform besar satu sama lain: ChatGPT, Claude, Huggingface, Mistral AI, dan Gemini. Setiap platform mendapatkan instruksi dasar yang sama untuk membuat penasihat keuangan.

Tes ini hanya berfokus pada kemampuan standar yang sudah ada. Apakah agen mampu menangani skenario umum - dalam hal ini, membantu seseorang menyeimbangkan $25,000 investasi dengan $30,000 hutang. Kami juga ingin melihat seberapa baik agen tersebut dalam menganalisis grafik perdagangan. Kami menghindari penggunaan alat tambahan yang dapat meningkatkan produktivitas agen dan mencoba mengambil pendekatan yang paling sederhana.

TL;DR Ini adalah apa yang kami temukan dan bagaimana kami menilai model-model tersebut:

Peringkat platform

1) GPT OpenAI (8.5/10)

  • Kemudahan Pengaturan: 4/5
  • Kualitas Hasil: 4.5/5

ChatGPT adalah platform yang paling seimbang, menawarkan penciptaan agen yang canggih dengan opsi yang dipandu maupun manual untuk memenuhi kebutuhan total noobs dan pengguna yang sedikit lebih berpengalaman sama-sama.

Sementara pembaruan antarmuka terbaru menyembunyikan beberapa fitur di menu, platform ini unggul dalam menerjemahkan persyaratan pengguna yang kompleks menjadi agen fungsional. Kami menguji model ini dengan membangun penasihat keuangan yang menunjukkan kesadaran kontekstual yang superior dan kemampuan pemecahan masalah yang terstruktur, memberikan strategi rinci namun koheren untuk manajemen utang dan alokasi investasi.

2) Google Gemini (7/10)

  • Kemudahan Pengaturan: 4/5
  • Kualitas Hasil: 3/5

Gemini menonjol dengan antarmuka yang rapi dan intuitif serta penanganan kesalahan yang sangat baik. Meskipun memerlukan instruksi yang lebih rinci untuk hasil optimal, interpretasi literal dari instruksi menciptakan hasil yang konsisten dan dapat diprediksi.

Pendekatan konsultatif agen terhadap nasihat keuangan menekankan pengumpulan konteks sebelum rekomendasi, mencerminkan praktik profesional. Namun, dapat terlalu konservatif dalam respons zero-shot-nya.

3) HuggingChat (6.5/10)

  • Kemudahan Pengaturan: 2/5
  • Kualitas Hasil: 4.5/5

Platform sumber terbuka menawarkan opsi penyesuaian dan pemilihan model yang tak tertandingi. Hal ini bagus bagi mereka yang mencari kontrol terperinci atas setiap aspek, tetapi bukan untuk mereka yang mencari kesederhanaan. (Bandingkan seperti membandingkan sistem Linux vs. macOS). Kerangka waktu yang canggih dan integrasi alat praktis menunjukkan kemampuan canggih.

Kami membangun agen murni tanpa fungsionalitas tambahan apa pun. Kami menggunakan Nvidia's Nemomotron sebagai dasar LLM, dan itu cukup baik untuk menyamai ChatGPT dalam kualitas output. Tidak buruk untuk kamp open-source.

4) Claude (5.5/10)

  • Kemudahan Penyiapan: 2.5/5
  • Kualitas Hasil: 3/5

Platform Anthropic sangat unggul dalam niche tertentu, terutama tugas-tugas yang memerlukan pemrosesan konteks yang ekstensif dan interpretasi kode. Antarmuka minimalisnya menyembunyikan kemampuan yang canggih, tetapi kolom instruksi “opsional” dapat membingungkan pengguna.

Agen kami tetap sangat konservatif dan samar dalam memberikan nasihatnya, namun menunjukkan kesadaran risiko yang solid dan pemikiran strategis. Diperlukan dorongan yang lebih hati-hati agar benar-benar dapat memeras potensinya, namun akan tidak adil bagi sebuah tes untuk menyesuaikan suatu dorongan, yang mengabaikan premis mengasumsikan kondisi yang serupa.

5) Mistral AI (5/10)

  • Setup Mudah: 2.5/5
  • Kualitas Hasil: 2.5/5

Platform Prancis menawarkan pembelajaran berbasis contoh unik dan opsi kustomisasi yang mendalam. Namun, antarmuka yang berfokus pada pengembang dan masalah beralih bahasa sesekali menciptakan hambatan bagi pengguna non-teknis. Ini juga memerlukan modifikasi konfigurasi agen untuk model yang berbeda untuk melakukan tugas yang berbeda seperti menganalisis gambar atau menangani kode. Ini tidak ideal.

Penasihat keuangan menunjukkan potensi dalam desain interaksi, tetapi kesulitan dalam validasi matematika dasar dan menawarkan hasil terburuk. Ini bukan berarti hasilnya buruk, tetapi dalam uji zero-shot, ini adalah yang paling tidak memuaskan.

Dalam-dalam

Mempertimbangkan peringkat sebelumnya, tidak ada solusi yang cocok untuk semua dan semua platform memiliki kelebihan dan kekurangan masing-masing. Dengan beberapa dedikasi dan penyesuaian prompt yang hati-hati, hasil dari satu platform mungkin bervariasi dan bahkan mengalahkan yang lain. Pada akhirnya, semua LLM memiliki gaya mempromosikan mereka sendiri.

Jika Anda ingin tahu lebih banyak tentang alasan di balik peringkat kami, berikut adalah pandangan yang lebih mendalam tentang pengalaman kami dan hasil yang kami dapatkan dengan agen kami. Kami mengonfigurasi semua agen kami dengan prompt sistem yang sama, tanpa parameter fungsi tambahan, dan mengajukan pertanyaan dasar yang sama kepada mereka: "Saya memiliki $ 25K untuk diinvestasikan dan saya berhutang $ 30K. Bangunkan saya rencana keuangan."

OpenAI

Antarmuka ChatGPT baru-baru ini mendapatkan perubahan tampilan yang sebenarnya membuat segalanya menjadi lebih rumit. Opsi pembuatan GPT sekarang tersembunyi di balik menu, tetapi setelah ditemukan, menawarkan dua jalur: pengaturan percakapan di mana AI membantu membangun agen Anda, dan konfigurasi manual untuk mereka yang tahu persis apa yang mereka inginkan.

Platform GPT OpenAI adalah pisau Swiss Army dari kemampuan - membaca kode, mencari di web, dan menangani pembuatan dan analisis gambar. Proses pengaturan yang dipandu AI membuatnya sangat cocok untuk pemula, meskipun mungkin terasa terbatas bagi pengguna kuat yang mencari kontrol granular. (Misalnya, jika Anda meminta model menjadi lebih spesifik atau lebih terperinci, itu mungkin mengubah seluruh sistem prompt, memberikan hasil yang lebih buruk).

Ketika sampai pada penggunaan agen, ChatGPT sangat mudah dipahami dan antarmukanya bersih serta mudah dipahami.

Agen-agen dapat secara alami membaca dokumen dan memahami gambar, yang memberikan keuntungan dibandingkan dengan platform lainnya.

Sekarang, mari kita bicara tentang kualitas agen yang dapat Anda buat dengan permintaan dasar. Penasihat keuangan kami bernama MoneyGPTsangat mengesankan, memberi kami pelajaran langsung dalam pemecahan masalah struktural.

Di luar alokasi yang tepat - “$20.000 untuk utang bunga tinggi” dan pembagian portofolio yang terperinci - agen tersebut menunjukkan pemikiran keuangan yang canggih. Ini memberikan peta jalan lima langkah yang bukan hanya daftar, tetapi strategi yang koheren yang mempertimbangkan kebutuhan segera dan pertimbangan jangka panjang.

Kekuatan agen terletak pada kemampuannya untuk menyeimbangkan detail dengan konteks. Sementara merekomendasikan investasi tertentu (40% S&P 500, 30% obligasi), ia juga menjelaskan alasan di balik responsnya: “Membayar hutang bunga tinggi sama dengan mendapatkan pengembalian investasi yang dijamin.” Kesadaran kontekstual ini diperluas ke perencanaan jangka panjang, menyarankan siklus ulasan berkala dan strategi adaptif berdasarkan perubahan keadaan.

Namun, kelebihan informasi ini mengungkapkan kelemahan potensial: risiko menghantui pengguna dengan terlalu banyak detail sekaligus. Meskipun secara teknis komprehensif, pengiriman cepat alokasi khusus, strategi investasi, dan rencana pemantauan mungkin terasa menakutkan bagi pemula di bidang keuangan.

Anda dapat membaca rencana lengkapnya di sini, dan Anda dapat menggunakannya dengan mengkliktautannya iniKami sangat merekomendasikannya.

Google

Secara keseluruhan, platform pembuatan agen Gemini dari Google memenangkan kontes kecantikan dengan antarmuka yang terlihat rapi dan intuitif yang membuat pembuatan agen terasa sangat mudah. Sistem ini mengikuti instruksi secara harfiah, yang membantu menghindari kebingungan, dan antarmuka yang bersih menghilangkan faktor intimidasi dari pengembangan AI.

Namun, dibutuhkan instruksi yang lebih rinci untuk menghasilkan hasil yang baik. Tidak mengambil sesuatu sebagai kepastian: instruksi singkat akan memberikan respons berkualitas rendah.

Di balik layar, itu mengemas otot serius—integrasi pencarian web yang didukung Google, analisis kode, dan kemampuan pemrosesan gambar yang menyaingi penawaran ChatGPT, tetapi sebagian besar mengandalkan teknologi Microsoft.

Antarmuka pengguna Gemini terasa seperti dirancang oleh orang-orang yang benar-benar memahami pengalaman pengguna. Antarmuka ini memandu pengguna dengan label yang jelas dan semua ditampilkan hanya dalam satu layar.

Pendekatan yang terampil ini membuatnya sangat menarik bagi para pemula, meskipun pengguna berpengalaman mungkin merasa ingin memiliki lebih banyak kontrol yang lebih terperinci.

Kami memanggil agen kamiMoneyGemdan meminta rencana keuangan. Pendekatannya yang konsultatif memperlihatkan metodologi pemecahan masalah yang berbeda dari Google. Alih-alih memberikan jawaban langsung, itu memulai dengan pertanyaan seperti "Utang jenis apa itu?" dan "Apa suku bunga Anda?"—menunjukkan pemahaman bahwa saran keuangan bukanlah satu ukuran cocok untuk semua.

Penekanan pada pengumpulan konteks sebelum memberikan rekomendasi sejalan dengan praktik perencanaan keuangan profesional, meskipun hal tersebut mungkin menyebalkan pengguna yang mencari jawaban segera.

Jawaban tanpa nol tidak berguna. Agen pada dasarnya mengatakan bahwa ia tidak cukup mengenal pengguna untuk memberikan saran keuangan yang baik. Setelah memintanya untuk membuat asumsi dan memaksanya untuk menyediakan rencana yang dapat cocok dalam sebagian besar skenario, agen tersebut menghasilkan draf rencana yang sangat konservatif tanpa memberikan saran-saran spesifik tentang investasi mana yang harus dipertimbangkan.

MoneyGem, bagaimanapun, mengakhiri jawabannya dengan rekomendasi untuk memaksimalkan akun berkeuntungan pajak seperti 401(k) atau Roth IRA untuk mengurangi beban pajak Anda. Bagus.

Anda dapat mengklik di siniuntuk membaca interaksi kami dengan MoneyGem, dan mencoba model ini sendiri dengan mengkliktautan ini.

Mistral AI

Pendekatan Mistral terhadap proses konfigurasi agen agak jauh dari kesederhanaan. Alat pembuatan agen disembunyikan di konsol pengembangnya, dengan opsi kustomisasi yang mendalam yang mungkin membuat pemula takut tetapi menyenangkan bagi tukang mainan.

Antarmuka pembangunan agennya bukan bagian dari LeChat (antarmuka chatbot), tetapi akan muncul di sana setelah agen dibuat.

Salah satu hal yang benar-benar kami sukai adalah kemampuan untuk memberi contoh kepada alat tersebut yang membentuk perilaku agen dan gaya respons—sesuatu yang saat ini tidak ditawarkan oleh platform lain. Juga, ada bug aneh: Saat membuat agen kami, antarmuka pengguna tiba-tiba beralih ke bahasa Perancis, mungkin karena perusahaannya Perancis. Terlepas dari itu, kami tidak dapat beralih kembali ke bahasa Inggris atau Spanyol.

Setelah agen dibuat, pengguna harus memanggilnya di antarmuka chatbot normal untuk dapat menggunakannya. Mereka harus keluar dari Le Plateforme dan pergi ke Le Chat, yang tidak hal yang paling intuitif untuk dilakukan. Namun, antarmuka pengguna untuk menggunakan agen ini cukup sederhana dan terasa seperti chatbot AI lainnya.

Kami membangun agen kami, dan memberinya nama Le Moneyuntuk menghormati akar Perancis Mistral. Kinerjanya jelas menunjukkan pendekatan umum Mistral dalam memecahkan masalah. Sarannya untuk "menyisihkan $10,000 untuk keadaan darurat, $15,000 untuk pembayaran utang, dan $10,000 untuk investasi" terlihat sederhana, tetapi menunjukkan bahwa agen kurang memiliki validasi matematika dasar.

Total $35.000 melebihi dana yang tersedia sebesar $10.000, yang merupakan kesalahan dasar yang beberapa model bahasa tunjukkan ketika mereka memprioritaskan kebenaran konseptual daripada akurasi numerik.

Namun, perlu dicatat bahwa LLM dengan kinerja terbaik telah banyak membaik dan tidak gagal dalam tugas ini - setidaknya tidak se-sering Mistral.

Selain itu, rencananya tidak terlalu terperinci, tetapi hanya satu-satunya yang menyediakan pertanyaan tindak lanjut yang dapat membuat interaksi lebih lancar dan dapat membantu memahami kebutuhan pengguna dengan lebih baik.

Rencana penuh LeMoney tersediadi sinidan agen tersedia untuk pengujiandi sini.

Antropik

Proyek-proyek Claude terasa kurang seperti platform penciptaan agen dan lebih seperti sistem pelaksanaan tugas yang canggih. Antarmuka minimalis, hampir terlalu minimalis, dan tidak terasa intuitif.

Antarmuka minimalis ini mungkin membuat beberapa pengguna menggaruk-garuk kepala. Platform ini menyajikan pengaturan telanjang dengan bidang instruksi "opsional" yang entah bagaimana terasa tidak penting dan krusial pada saat yang bersamaan: Jika instruksi diberi label sebagai opsional, lalu bagaimana agen AI tahu apa yang seharusnya dilakukan?

Antarmuka minimalisnya terasa aneh, tetapi Anthropic tidak pernah dikenal karena selera pilihannya dalam antarmuka pengguna. Jendela yang sama untuk mengonfigurasi model adalah yang Anda gunakan untuk memicu model tersebut. Kemampuannya terutama berfokus pada interpretasi kode teks, tidak ada yang lain. Pencarian web dan pengolahan dan generasi gambar adalah hal-hal yang menarik yang Anthropic tinggalkan untuk pesaingnya.

Agen kami, bernama MoneyClaude, tidak tersedia untuk pengujian publik karena Anthropic tidak mengizinkannya. Anthropic mengambil sikap yang sangat konservatif dalam memberikan saran keuangan dengan jawaban yang teknis akurat, tetapi samar-samar seperti "pertahankan pendekatan seimbang antara pengurangan hutang dan tabungan penting," misalnya.

Permintaan informasi tambahan, namun setidaknya pastikan untuk memberikan strategi yang sangat umum dalam ketiadaannya tanpa memerlukan interaksi lebih lanjut, yang tampaknya lebih optimal daripada pendekatan Google.

Klik di sini untuk membacanya rencana lengkap.

Hugging Face

Repositori sumber terbuka berdiri sendiri sebagai surga pengguna berpengalaman - dan mimpi buruk potensial bagi pemula. Ini adalah satu-satunya platform yang memungkinkan pengguna memilih model bahasa yang mereka inginkan, menawarkan kontrol tak tertandingi atas dasar agen.

Selain itu, pengguna memiliki puluhan alat berbeda untuk diintegrasikan dengan agen mereka, tetapi hanya dapat mengaktifkan tiga di antaranya secara bersamaan. Pembatasan ini memaksa pertimbangan yang cermat tentang fitur mana yang paling penting untuk setiap kasus penggunaan tertentu, tetapi ini adalah sesuatu yang model lain tidak dapat tawarkan.

Ini adalah pengalaman yang paling dapat disesuaikan dari semua antarmuka, namun, dengan banyak tuas untuk disesuaikan. Hasilnya adalah platform yang dapat menciptakan agen khusus yang lebih kuat daripada pesaingnya, tetapi hanya di tangan seseorang yang tahu persis apa yang mereka lakukan.

Pengguna dapat mencoba agen mereka di MemelukNgobrol—tanpa ragu-ragu impian pengguna berdaya. Setelah Anda membuat agen, menggunakannya sangat mudah. Antarmuka menampilkan kartu besar dengan nama Agen, deskripsi, dan foto. Ini juga memungkinkan pengguna untuk berbagi link agen dan mengatur pengaturannya, semua dari kartu tersebut.

MenggunakanHuggingMoney'sagen yang diuji menunjukkan bahwa ia menghadapi kerangka waktu, menunjukkan pemahaman yang lebih canggih tentang psikologi perencanaan keuangan. Pembagiannya menjadi "Jangka Pendek (0-24 bulan), Menengah (24-60 bulan), dan Jangka Panjang (lebih dari 60 bulan)" mencerminkan praktik perencanaan keuangan profesional.

Agen menyarankan untuk mengalokasikan "$0-$5,000 ke dalam kendaraan likuid yang berisiko rendah" sambil mempertahankan pembayaran utang yang agresif sebesar "$1,000-$1,500 per bulan". Ini, pada pandangan pertama, merupakan tanda pemahaman nuansa tentang manajemen arus kas.

Fitur menarik lainnya adalah integrasinya antara alat-alat praktis dengan saran teoritis. Lebih dari sekadar menyarankan 50/30/20Aturan tersebut merekomendasikan aplikasi anggaran tertentu dan menekankan optimasi pajak - menciptakan jembatan antara strategi tingkat tinggi dan pelaksanaan sehari-hari. Kekurangan utamanya? Itu termasuk asumsi tentang tingkat bunga utang tanpa mencari klarifikasi.

Dalam upaya untuk memberikan saran yang berguna, terlalu banyak hal yang dianggap sebagai hal yang pasti. Hal ini, keinginan untuk memberikan balasan apa pun, dapat diperbaiki dengan dorongan, tetapi merupakan sesuatu yang perlu dipertimbangkan.

Anda dapat membaca rencana lengkap HuggingMoneydi sini. Selain itu, Anda dapat mencobanya dengan mengklik tautan ini.

Penyangkalan:

  1. Artikel ini dicetak ulang dari [gateDecrypt]. Seluruh hak cipta milik penulis asli [ Jose Antonio Lanz]. Jika ada keberatan terkait cetakan ulang ini, silakan hubungi Gate Belajartim, dan mereka akan menanganinya dengan segera.
  2. Penolakan Tanggung Jawab atas Kewajiban: Pandangan dan opini yang terdapat dalam artikel ini semata-mata merupakan pandangan penulis dan tidak merupakan nasihat investasi.
  3. Tim Learn gate menerjemahkan artikel ini ke dalam bahasa lain. Menyalin, mendistribusikan, atau melakukan plagiarisme terhadap artikel yang diterjemahkan dilarang kecuali disebutkan.
Bắt đầu giao dịch
Đăng ký và giao dịch để nhận phần thưởng USDTEST trị giá
$100
$5500