【AIを開発するために必要なデータが急速に枯渇】たった1年で高品質データの4分の1が使用不可に

1: ■忍【LV11,しんりゅう,JK】第13艦隊◆IpxlQ2BXrcdb 24/07/25(木) 11:17:03 ID:???

AIの開発にはインターネットからかき集めたテキスト、画像、動画などのデータが大量に用いられています。しかし、クローリング
の禁止やサービス利用規約の変更によりAI企業がウェブサイトから閉め出されたことで、高性能なAIのトレーニングに使えるデータ
の総量が1年で約5％、高品質なデータの約25％が使えなくなったことがわかりました。AIモデルのデータセットの監査を行っている団体・Data Provenance Initiativeは、広く使用されている3つのAIトレーニング用データ
セット「C4」「RefinedWeb」「Dolma」に含まれている1万4000件のウェブドメインを調査し、クローリングで得られるデータと
その使用に関する同意状況の変化を調べました。

その結果、2023年から2024年にかけてのたった1年で各サイトによるデータ制限が急増していることがわかりました。

以下は調査結果のグラフで、上がクローラーにアクセスを許可するURLを記述する「Robots.txt」、下がサービス利用規約
「Terms of service(ToS)」によるアクセス制限の状況を示しています。
特に、Robots.txtでの制限はOpenAIのクローラーである「GPTBot」の導入を境に急増しています。

（以下略）

ギガジン　7月23日
https://gigazine.net/news/20240723-ai-data-restrictions/

◆ニュー速＋　記事情報提供スレ　149◆
－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－
!jien ＝お知らせ＝

おーぷん2ちゃんねる、ニュー速＋ http://uni.open2ch.net/newsplus/

【アク禁依頼・解除】は「政経雑談スレ」に連絡を入れて下さい。
#侮蔑語・煽り・#スレと関係ないレスバトル・レッテル貼り連呼
・下品な発言・不快なaa・#会話不能などが、アク禁対象です。

アク禁依頼・解除はレス番で！！（理由も添えてくださいませ）

引用元: ・【AIを開発するために必要なデータが急速に枯渇】たった1年で高品質データの4分の1が使用不可に［R6/7/25］