Tweeter Breaking News-ツイッ速!
国内

【AIを開発するために必要なデータが急速に枯渇】たった1年で高品質データの4分の1が使用不可に

【AIを開発するために必要なデータが急速に枯渇】たった1年で高品質データの4分の1が使用不可に
1: ■忍【LV11,しんりゅう,JK】第13艦隊◆IpxlQ2BXrcdb 24/07/25(木) 11:17:03 ID:???

AIの開発にはインターネットからかき集めたテキスト、画像、動画などのデータが大量に用いられています。しかし、クローリング
の禁止やサービス利用規約の変更によりAI企業がウェブサイトから閉め出されたことで、高性能なAIのトレーニングに使えるデータ
の総量が1年で約5%、高品質なデータの約25%が使えなくなったことがわかりました。
AIモデルのデータセットの監査を行っている団体・Data Provenance Initiativeは、広く使用されている3つのAIトレーニング用データ
セット「C4」「RefinedWeb」「Dolma」に含まれている1万4000件のウェブドメインを調査し、クローリングで得られるデータと
その使用に関する同意状況の変化を調べました。

その結果、2023年から2024年にかけてのたった1年で各サイトによるデータ制限が急増していることがわかりました。

以下は調査結果のグラフで、上がクローラーにアクセスを許可するURLを記述する「Robots.txt」、下がサービス利用規約
「Terms of service(ToS)」によるアクセス制限の状況を示しています。
特に、Robots.txtでの制限はOpenAIのクローラーである「GPTBot」の導入を境に急増しています。

(以下略)

ギガジン 7月23日
https://gigazine.net/news/20240723-ai-data-restrictions/

◆ニュー速+ 記事情報提供スレ 149◆
---------------------------------
!jien =お知らせ=

おーぷん2ちゃんねる、ニュー速+ http://uni.open2ch.net/newsplus/

【アク禁依頼・解除】は「政経雑談スレ」に連絡を入れて下さい。
#侮蔑語 ・煽り・#スレと関係ないレスバトル ・レッテル貼り連呼
・下品な発言・不快なaa・#会話不能 などが、アク禁対象です。

アク禁依頼・解除はレス番で!!(理由も添えてくださいませ)

引用元: ・【AIを開発するために必要なデータが急速に枯渇】たった1年で高品質データの4分の1が使用不可に[R6/7/25]

コメント

今月の人気記事

pagetop

PAGE TOP

タイトルとURLをコピーしました