AIの開発にはインターネットからかき集めたテキスト、画像、動画などのデータが大量に用いられています。しかし、クローリング
の禁止やサービス利用規約の変更によりAI企業がウェブサイトから閉め出されたことで、高性能なAIのトレーニングに使えるデータ
の総量が1年で約5%、高品質なデータの約25%が使えなくなったことがわかりました。AIモデルのデータセットの監査を行っている団体・Data Provenance Initiativeは、広く使用されている3つのAIトレーニング用データ
セット「C4」「RefinedWeb」「Dolma」に含まれている1万4000件のウェブドメインを調査し、クローリングで得られるデータと
その使用に関する同意状況の変化を調べました。
その結果、2023年から2024年にかけてのたった1年で各サイトによるデータ制限が急増していることがわかりました。
以下は調査結果のグラフで、上がクローラーにアクセスを許可するURLを記述する「Robots.txt」、下がサービス利用規約
「Terms of service(ToS)」によるアクセス制限の状況を示しています。
特に、Robots.txtでの制限はOpenAIのクローラーである「GPTBot」の導入を境に急増しています。
(以下略)
ギガジン 7月23日
https://gigazine.net/news/20240723-ai-data-restrictions/
◆ニュー速+ 記事情報提供スレ 149◆
---------------------------------
!jien =お知らせ=
おーぷん2ちゃんねる、ニュー速+ http://uni.open2ch.net/newsplus/
【アク禁依頼・解除】は「政経雑談スレ」に連絡を入れて下さい。
#侮蔑語 ・煽り・#スレと関係ないレスバトル ・レッテル貼り連呼
・下品な発言・不快なaa・#会話不能 などが、アク禁対象です。
アク禁依頼・解除はレス番で!!(理由も添えてくださいませ)
引用元: ・【AIを開発するために必要なデータが急速に枯渇】たった1年で高品質データの4分の1が使用不可に[R6/7/25]
コメント