https://gigazine.net/news/20250812-reddit-block-internet-archive-ai-scraping/
2025年08月12日 11時16分
Internet Archiveはインターネット上のあらゆるコンテンツをアーカイブするWayback Machineを運営しており、ソーシャル掲示板・Reddit上のコンテンツもアーカイブ対象となっています。しかし、スクレイピングを禁止しているRedditのコンテンツを、Wayback Machineのアーカイブ経由でAIのトレーニングに利用する企業が存在することがわかり、RedditがWayback Machineによるコンテンツのアーカイブをブロックし始めたことが明らかになりました。
Reddit blocks Internet Archive to end sneaky AI scraping – Ars Technica
https://arstechnica.com/tech-policy/2025/08/reddit-blocks-internet-archive-to-end-sneaky-ai-scraping/
Reddit will block the Internet Archive | The Verge
https://www.theverge.com/news/757538/reddit-internet-archive-wayback-machine-block-limit
Wayback Machineはインターネット上のあらゆるコンテンツをアーカイブするという使命の一環として、Reddit上のページやプロフィール、コメントをアーカイブしてきました。しかし、今後はRedditのスクリーンショットのみがアーカイブされるようになるとArs Technicaは報じています。
RedditはWayback MachineからデータをスクレイピングしていたAI企業の名前を明らかにしていませんが、同社の広報担当であるティム・ラスシュミット氏は「Redditは、AI企業がプラットフォームのポリシー(Redditのポリシーを含む)に違反し、Wayback Machineからデータをスクレイピングしている事例を認識しています」とArs Technicaにコメントしています。
ラスシュミット氏はAIスクレイピングに対する防御を強化するため、Internet Archive側が講じるべき対策があると示唆し、「Internet Archiveがサイトを守り、プラットフォームのポリシー(ユーザーのプライバシーの尊重、削除されたコンテンツの削除など)を遵守できるようになるまで、私たちはRedditユーザーを守るためにInternet ArchiveによるRedditデータへのアクセスを一部制限します」と言及しています。
なお、Redditユーザーの中には既に削除されている投稿やコメントを調べるために、Wayback Machineを利用している人もいるとArs Technicaは指摘。こういったユーザーは、削除済みの投稿やコメントを閲覧するためのツールは他にも無数に存在しており、Wayback Machineはそのような目的で利用するのに適したプラットフォームではないとも言及しているそうです。
(略)
※全文はソースで。
引用元: ・RedditがInternet Archiveをブロック、AI企業によるWayback Machineのアーカイブ不正利用を阻止するため [少考さん★]
コメント