テザー、QVAC Genesis IIデータセットのリリースによりOpen AIのトレーニングデータを拡大


トップフィンテックニュースとイベントを発見しよう!

FinTech Weeklyのニュースレターに登録しよう

JPモルガン、コインベース、ブラックロック、クラーナなどの幹部が読んでいます


オープンAIトレーニングデータの大規模拡張

テザー・データは、人工知能向けの合成教育データセットの新バージョンを公開し、世界中の研究者が利用できるオープンなトレーニング資料の量と範囲を大幅に拡大しました。同社のAI研究部門QVACは、新リリース「QVAC Genesis II」が従来のデータセットに1070億のトークンを追加し、合計で1,480億トークンとなったと発表しました。

拡張されたデータセットは、AIの事前学習に特化した最大規模の公開合成教育リソースとなっています。19の学術分野にわたり、モデルが表層的なパターン認識ではなく、推論、説明、意思決定を学習できるよう設計されています。

この発表は、多くの先進的なトレーニングデータセットが依然として独自システム内に閉じられている現状に対し、より透明でアクセスしやすいAI開発への一歩として位置付けられています。

最初のGenesisリリースを基盤に

QVAC Genesis IIは、最初に導入されたGenesis Iを基盤としています。Genesis Iは、科学、技術、工学、数学のコア科目をカバーする検証済みの教育中心の合成データセットの作成に焦点を当てていました。このリリースは、推論の正確性向上を目的とした構造化されたトレーニング問題の生成フレームワークを確立しました。

今回のリリースでは、化学、コンピューターサイエンス、統計学、機械学習、天文学、地理学、計量経済学、電気工学など、10の分野を追加でカバーしています。また、大学レベルの物理内容も見直し、概念の明確化を図るために新たな手法で再生成しています。

これら二つのリリースは、QVACが「これまでで最も広範な合成教育データセット」として公開したものであり、構造化された学術資料を必要とする大規模言語モデルやその他のAIシステムの事前学習に利用されることを意図しています。

トレーニングデータ生成の新たなアプローチ

Genesis IIの中心には、「オプションレベル推論」と呼ばれる新しいデータ生成手法があります。これは、多くの既存の合成データ技術とは異なり、正答だけでなく誤答にも焦点を当てる点が特徴です。

正解を単なる終点とせず、選択肢ごとに分析します。正答はなぜ正しいのかを強調し、誤答は誤解や誤った理解を解消するために検討されます。この構造により、モデルは因果推論や意思決定のロジックを学習し、単なるパターンの関連付けにとどまらない理解力を養います。

この手法は、Genesis Iで導入された「失敗分析」手法と補完し合い、各生成問題が教育的価値を持つよう設計されたパイプラインを形成しています。QVACの評価によると、Genesis IIのデータで訓練されたモデルは、推論の正確さが向上し、より明確な回答を生成する傾向があると示されています。

理解重視のアプローチ

現在のAIトレーニングエコシステムの多くは、大量のテキストを収集し、言語の流暢さを向上させることに重点を置いています。一方、QVACの目的は、問題を推論し、結論を明確に説明できるモデルを育成することにあります。

リーダーシップは、「単にテキストの連なりを予測するだけでなく、根底にある概念を理解し示すモデルを目指す」と述べており、データセットの設計は明快さ、因果関係、論理性を重視しています。これにより、モデルの出力の曖昧さを減らすことを狙っています。

このアプローチは、教育や科学、意思決定支援の場面でAIの信頼性や説明性を高めるという、AI研究の広範な議論とも一致しています。

研究者・開発者向けのオープンアクセス

元のGenesisデータセットと同様に、QVAC Genesis IIもオープンに公開されます。クリエイティブ・コモンズ・表示-非営利4.0ライセンスの下で提供され、研究者や学術機関、個人開発者が商用外で利用・研究できるようになっています。

データセットと関連モデルはHugging Faceにホストされており、生成手法や評価結果を詳述した技術論文も公開されています。このオープン配布により、大規模な独自データセットにアクセスできない研究者のハードルを下げることを狙っています。

非営利ライセンスの維持により、学術・コミュニティ主導の研究を支援しつつ、直接的な商業利用は制限しています。

分散型AI開発の支援

このリリースは、テザー・データが推進する分散型AI開発の戦略とも合致しています。同社は、高品質なトレーニングデータは中央集権的クラウドインフラを持つ組織だけに限定されるべきではないと述べています。

大規模で構造化されたデータセットを公開することで、ローカルでのトレーニングや実験、AIモデルの展開を促進し、計算リソースが限られる環境でも知的貢献を可能にしようとしています。

この分散化の方針は、少数の支配的なAIプラットフォームへの依存を減らし、より広範な研究エコシステムを育成する動きの一環です。

テザーのAI研究における役割

QVACは、テザー・データのAI研究部門として活動しています。テザーはデジタル資産やステーブルコインで広く知られていますが、近年はデータとAI研究にも事業を拡大しています。

QVACを通じて、オープンな研究を支援するインフラやリソースの構築に注力しており、Genesisデータセットはその代表的な成果の一つです。これにより、オープンなAI開発や教育重視のトレーニングデータに関する議論の中で、同社の位置付けを強めています。

また、金融技術企業と先端AI研究の融合も進んでおり、データサイエンスや機械学習への投資が増えています。

リリースに対するリーダーの見解

テザーの幹部は、Genesis IIのリリースを「単なるボリューム重視のトレーニング手法からの脱却」と位置付けています。Tetherのエグゼクティブは、「AIに推論と説明を教えることが重要」と述べており、データセットの公開は、より強く、説明可能なAIの社会的利益を信じる姿勢の表れです。

これらの見解は、未構造化テキストのみを用いたモデルの限界について研究者が指摘してきた懸念とも一致しています。

教育分野とドメインのカバレッジ

Genesis IとIIの合計データセットは、19の分野をカバーし、中高教育レベルの内容を含みます。数学や物理の基礎から、計量経済学や機械学習などの応用分野まで、多岐にわたります。

各分野には、構造化された質問、解説、推論の道筋が含まれ、概念の教育や評価に沿った設計となっています。これにより、論理的整合性や概念の深さを必要とする事前学習に適しています。

内容の再生成と拡張により、教育資料の表現方法の改善を目指しています。

評価とモデルの性能

QVACの内部および独立した評価によると、Genesis IIで訓練されたモデルは、推論を重視したタスクでの性能が向上しています。具体的には、構造化された質問への回答、結論の説明、曖昧さや矛盾の回避などです。

評価結果は、「失敗分析」と「オプションレベル推論」の組み合わせが、より一貫性のある出力をもたらすことを示唆しています。データセット単体の解決策ではなく、今後の訓練や微調整の基盤として位置付けられています。

今後、コミュニティでの利用拡大に伴い、追加の評価も進められる見込みです。

オープンAI研究への影響

この規模のオープンデータセットの公開は、学術・独立系研究者のモデル訓練へのアプローチに変化をもたらす可能性があります。これまで、こうした構造化された教育データへのアクセスは限られていました。

代替手段として、QVAC Genesis IIは、小規模モデルやローカル訓練、説明可能なAIの研究を支援し得ます。

また、推論の質を重視した合成データのベンチマークとしても役立つでしょう。

AIエコシステム内での位置付け

QVAC Genesis IIは、急速に発展し、資源が集中するAIエコシステムに位置します。多くの高性能モデルは、商用の非公開データセットを用いて訓練されており、透明性や再現性の観点から課題もあります。

一方、Genesis IIのようなオープンデータは、透明性と共有の進展を促進します。商用AIとオープンリソースの共存についても議論を呼びます。

金融技術やデジタル資産に根ざす企業がAI研究に関わる例も増え、産業横断的な関心の高さを示しています。

今後の展望と次のステップ

「QVAC Genesis II:最大かつ最高品質の多ドメイン教育合成データセットの拡張」に関する詳細な技術資料は、QVAC研究ブログに掲載されています。データセットと関連モデルはHugging Faceから入手可能です。

QVACは今後も手法の改良や教育範囲の拡大を進める予定であり、研究コミュニティからのフィードバックも次期リリースに反映される見込みです。

オープンな基盤構築への継続的な推進

Genesis IIを通じて、QVACはオープンで構造化されたトレーニングデータの重要性を再確認しています。知性は、単なる統計的関連付けではなく、推論と説明に基づくべきだと考えています。

AIシステムが教育や科学、金融サービスに浸透する中、そのトレーニングデータの質は引き続き重要な課題です。

現時点では、規模と構造、アクセス性において、商用環境では稀有な規模のオープンAI研究への貢献となっています。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
0/400
コメントなし
  • ピン