ソフトウェア

オープンソースAIを定義する「OSAID」のバージョン1.0が公開、MetaのLlamaはオープンソースAIに合致せず


オープンソースのあらゆるものを定義し管理するOpen Source Initiative(OSI)が、オープンソースAIを定義する「The Open Source AI Definition(OSAID:オープンソースAIの定義)」のバージョン1.0を公開しました。

The Open Source AI Definition – 1.0 – Open Source Initiative
https://opensource.org/ai/open-source-ai-definition


We finally have an 'official' definition for open source AI | TechCrunch
https://techcrunch.com/2024/10/28/we-finally-have-an-official-definition-for-open-source-ai/

Open-source AI must reveal its training data, per new OSI definition - The Verge
https://www.theverge.com/2024/10/28/24281820/open-source-initiative-definition-artificial-intelligence-meta-llama

オープンソースは、ソフトウェアシステムの学習・使用・共有・改善の障壁を取り除くことで、すべての人に大きなメリットがもたらされることを実証してきました。オープンソースの持つメリットは、オープンソースの定義に準拠したライセンスを使用することで得られるものであると、OSIは主張しています。AIの場合、AI開発者・導入者・エンドユーザーが自律性・透明性・スムーズな再利用・共同改善といったメリットを享受できるようにするために、オープンソースと同じ基本的な自由を必要とします。


そこで、OSIは学会や業界と協力してオープンソースAIを定義するOSAIDのバージョン1.0を策定しました。OSIはオープンソースAIを、「以下の自由を付与する条件と方法で提供されるAIシステム」としています。

・許可を求めることなく、あらゆる目的でシステムを使用できます。
・システムがどのように動作するかを調べ、そのコンポーネントを検査します。
・出力の変更を含む、あらゆる目的でシステムを変更します。
・他のユーザーが変更の有無にかかわらず、あらゆる目的で使用できるようにシステムを共有します。


さらに、機械学習システムに変更を加えるための推奨形式として、以下を挙げました。

データ情報:熟練した人が実質的に同等のシステムを構築できるように、システムをトレーニングするために使用されるデータに関する十分に詳細な情報。データ情報は、OSI承認の条件に従って提供されるものとします。

(1)トレーニングに使用されるすべてのデータの完全な説明(共有できないデータ(使用する場合)を含む)、データの出所、範囲と特性、データの取得方法と選択方法、ラベル付け手順、データ処理およびフィルタリング方法の開示
(2)公開されているすべてのトレーニングデータとその入手先の一覧
(3)第三者から入手できるすべてのトレーニングデータとその入手先(有料の場合を含む)の一覧

コード:システムのトレーニングと実行に使用される完全なソースコード。コードは、データの処理方法とフィルタリング方法、およびトレーニングの実行方法の完全な仕様を表すものとします。コードは、OSI承認のライセンスに基づいて提供されるものとします。

例えば、使用される場合、これにはデータの処理とフィルタリングに使用されるコード、使用される引数と設定を含むトレーニングに使用されるコード、検証とテスト、トークナイザーやハイパーパラメータ検索コードなどのサポートライブラリ、推論コード、モデルアーキテクチャが含まれる必要があります。

パラメータ:重みやその他の構成設定などのモデル パラメータ。パラメータは、OSI 承認の条件に従って利用可能になります。

例えば、これにはトレーニングの主要な中間段階のチェックポイントや、最終的なオプティマイザーの状態が含まれる場合があります。

機械学習システムの場合、AIモデルは「モデルアーキテクチャ、モデルパラメーター、モデルを実行するための推論コード」で構成され、AI重みは「モデルアーキテクチャをオーバーレイして、特定の入力から出力を生成する学習済みパラメーターのセット」を指し、機械学習システムに変更を加えるための推奨形式は、これらの個々のコンポーネントにも適用されます。

なお、OSIはAIシステムおよび機械学習を以下のように定義しています。

AIシステム:AIシステムは、明示的または暗黙的な目的のために、受信した入力から、物理環境または仮想環境に影響を与える予測、コンテンツ、推奨事項、決定などの出力を生成する方法を推論するマシンベースのシステムです。AIシステムによって、展開後の自律性と適応性のレベルは異なります。

機械学習:機械がパフォーマンスを向上させ、通常はトレーニングデータにさらすことで自動的にモデルを生成することを可能にする一連の技術です。これにより、人間からの明示的な指示ではなく、パターンや規則性を識別するのに役立ちます。機械学習技術を使用してシステムのパフォーマンスを向上させるプロセスは、「トレーニング」と呼ばれます。


OSIのエグゼクティブ・ヴァイスプレジデントを務めるステファーノ・マフルリ氏は「政策立案者とAI開発者を同じ認識に立たせることが大きな動機です」「規制当局はすでにこの分野に注目しています」「私たちは、テクノロジー業界の常連だけでなく、さまざまな利害関係者やコミュニティに積極的に働きかけました。早期のフィードバックを得るために、規制当局と最も頻繁に話をする組織にも連絡を取ろうとしました」とテクノロジーメディアのTechCrunchにコメントしました。

OSAIDにおいて、オープンソースのAIモデルとみなされるには、人間が「実質的に」再現できるほど十分な設計情報を提供する必要があり、他にもトレーニングデータの関連情報(ソース、データの処理方法、データの入手方法やライセンス方法など)も開示する必要があります。そのため、マフルリ氏はMetaのLlamaのようなAIモデルはオープンソースとは呼べないと非難しました。

なお、OSIはAIにおける「オープンソース」という単語の利用法について、AI大手と協議しています。GoogleおよびMicrosoftは、完全にオープンではないAIモデルに対して「オープンソース」という単語を使用しないことに同意したものの、Metaはこれに同意していません。

また、自社のAIモデルをオープンソースであると長らく宣伝してきたStability AIは、100万ドル以上の収益を上げている企業にはエンタープライズライセンスの取得を義務付けているため、OSAIDにおいてはオープンソースAIと定義することができません。フランスのAIスタートアップであるMistralのライセンスでも、特定のモデルと出力を商業目的で使用することが禁じられているため、OSAIDにおいてはオープンソースAIと定義することができません。

実際、AI Now Instituteやカーネギーメロン大学の研究者が2023年8月に実施した調査では、多くの「オープンソースAI」を自称するAIモデルが、実際にはオープンではないことが証明されています。別の研究でも、オープンソースを称するAIモデルの多くがオープンではないことが示されました。

「オープンソース」を称するAIモデルは実際どのくらいオープンなのか? - GIGAZINE


MetaはOSAIDの起草プロセスに参加していたにもかかわらず、OSAIDのバージョン1.0に同意していません。Metaの広報担当者はLlamaのライセンスは有害な利用に対するガードレールとして適切に機能するものだと主張しました。また、カリフォルニア州のトレーニング透明性法などの規制を挙げ、トレーニングデータの詳細を含むモデルの詳細を共有することに「慎重なアプローチを取っている」と語っています。

AIモデルのトレーニングデータを開示することを義務付ける法案が提出される - GIGAZINE


なお、OSAIDのバージョン1.0を支持する組織にはMozilla、Intel、スタンフォード大学、Bloomberg、Digital Public Goods Alliance、EleutherAI、コモン・クロール、SUSE、LLM360、Free Software unit、Open Source Group Japanなどが名を連ねています。

この記事のタイトルとURLをコピーする

・関連記事
MetaがAI向けのオープンなハードウェアについての現状と展望について語る - GIGAZINE

「オープンソース」を称するAIモデルは実際どのくらいオープンなのか? - GIGAZINE

イーロン・マスクのチャットAI「Grok」がついにオープンソース化、他のオープンソースモデルより格段に優れているとの指摘も - GIGAZINE

AIモデルのトレーニングデータを開示することを義務付ける法案が提出される - GIGAZINE

in ソフトウェア, Posted by logu_ii

You can read the machine translated English article here.