【ITニュース解説】Reddit, Yahoo, Medium and more are adopting a new licensing standard to get compensated for AI scraping
2025年09月11日に「Engadget」が公開したITニュース「Reddit, Yahoo, Medium and more are adopting a new licensing standard to get compensated for AI scraping」について初心者にもわかりやすく解説しています。
ITニュース概要
Reddit等が、AIのウェブコンテンツ利用に対価を求める新ライセンスRSLを導入した。robots.txtでAI企業に利用料を請求する。サイト運営者は収益化でき、AIは合法的に良質な情報を得られる。
ITニュース解説
現在、インターネット上ではAI技術の急速な発展に伴い、ウェブ上の膨大な情報がAIモデルの学習に利用されている。このプロセスは「AIスクレイピング」と呼ばれ、AIがウェブサイトを巡回してテキストや画像を収集することを指す。しかし、これによりコンテンツを作成・公開しているウェブパブリッシャーたちは、自らが時間とコストをかけて生み出した情報が、AI企業の利益に貢献しているにもかかわらず、その対価を得られていないという問題に直面している。多くのウェブパブリッシャーが経営危機に瀕する中で、このような状況は持続可能ではないと考えられている。
この問題に対処するため、ウェブパブリッシャー側から新たな動きとして「Really Simple Licensing (RSL)」という新しいライセンス標準が提案され、採用され始めている。RSLは、AI企業がウェブコンテンツをスクレイピングする際に、その利用条件や報酬について明確なルールを設けることを目的としている。これにより、コンテンツ提供者であるパブリッシャーが、AIによるコンテンツ利用に対して公正な対価を得られるようにすることを目指している。
RSLの仕組みは、ウェブサイトがウェブクローラー(検索エンジンやAIが情報を収集するために利用するプログラム)に対して指示を出すための標準的なファイルであるrobots.txtに、新たなライセンス条項を追加するという形を取る。robots.txtは、ウェブサイトのどの部分をクローラーがアクセスしてもよいか、あるいはアクセスしてはならないかを記述するためのシンプルなテキストファイルだ。RSLはこの既存のプロトコルを活用し、AIスクレイピングに対する具体的なライセンス条件を付加することを可能にする。
RSLが提供するライセンスオプションは多岐にわたる。例えば、「無料」の利用を許可するオプションもあれば、「帰属表示」を条件とするオプションもある。さらに、AI企業がコンテンツを利用する際に「サブスクリプション」形式で料金を支払うことや、「クロールごとの支払い」(ウェブサイトを巡回するたびに料金が発生する)、「推論ごとの支払い」(AIがそのコンテンツを基に回答を生成した場合にのみ料金が発生する)といった、より具体的な報酬モデルも設定できる。特に「推論ごとの支払い」は、AIが実際にコンテンツを利用してユーザーに情報を提供したときにのみ支払いが発生するという点で、コンテンツ提供者にとっては公正な報酬体系となり得る。
このRSL標準の導入と運営を支援するために、「RSL Collective」という非営利団体が設立された。この団体は、音楽業界における著作権使用料を管理するASCAPやBMIのような組織をモデルとしており、ウェブコンテンツの分野で同様の役割を果たすことを目指している。RSL Collectiveは、RSL標準を通じて、すべてのパブリッシャーが公正な市場価格を設定し、AI企業との交渉においてより強い立場を持てるようにすることを目的としている。
すでに多くの主要なウェブサイトや企業がRSLの取り組みに賛同し、参加を表明している。具体的な参加ブランドとしては、大手掲示板サイトのReddit、ニュースメディアのYahoo(Engadgetの親会社)、ブログプラットフォームのMedium、そしてPeople Inc.、Internet Brands、Ziff Davis、wikiHow、O'Reilly Media、The Daily Beast、Miso.AI、Raptive、Ranker、Evolve Mediaなどが挙げられる。これらの多様な参加者は、ウェブコンテンツ業界全体でRSLに対する期待が高まっていることを示している。このグループは、元Ask.comのCEOであるDoug Leeds氏と、インターネットの初期から存在する技術であるRSSの共同作成者であるEckart Walther氏が主導している。RedditのCEOであるSteve Huffman氏は、RSL標準がAI時代におけるライセンス条件設定の明確でスケーラブルな方法を提供すると述べ、RSL Collectiveが協力してこれを行う道筋を示すものだと評価している。Reddit自身も、OpenAIやGoogleといったAI企業と個別のライセンス契約を結んでいることが知られており、RSLはより広範な解決策となることが期待されている。
しかし、RSLがAI企業によって実際に遵守されるかどうかは、まだ不透明な部分も多い。なぜなら、AI企業の中には、ウェブクローラーに対する指示であるrobots.txtを過去に無視した事例があるからだ。RSL Collectiveは、RSLの定める条件が法的に強制力を持つと信じているが、その実証はこれからの課題となる。過去には、AI企業Anthropicが著作権侵害で15億ドルの和解に応じた事例(後に裁判官に却下されたが)があり、RSL CollectiveのDoug Leeds氏は、合法的に学習を行わないAI企業には「実際に多額の金銭的リスクがある」と指摘している。また、RSLが持つ「集団的」な性質は、法的な違反が発生した場合に、訴訟にかかる費用を複数のパブリッシャーで分担できる可能性があり、これにより個別のパブリッシャーが法的措置を取りやすくなるというメリットもある。
技術的な側面から見ると、RSL標準自体には、悪質なボット(自動プログラム)をブロックする機能はない。そのため、RSL Collectiveは、コンテンツ配信ネットワーク(CDN)を提供するクラウド企業であるFastlyと提携し、この技術的な強制力の一部を担わせる計画だ。Fastlyは、ウェブサイトへのアクセスを管理し、トラフィックを監視する役割を果たすため、ウェブサイトへのアクセスを試みるAIボットを「クラブの用心棒」のように管理し、RSLのライセンス条件に従わないアクセスを制限するゲートキーパーとして機能することが期待されている。
RSLはパブリッシャーだけでなく、AI企業側にもメリットをもたらす可能性があるとされている。例えば、AI企業が個々のパブリッシャーと一つずつライセンス契約を結ぶのは、非常に手間がかかり、費用も大きくなる。RSLのような標準化されたシステムがあれば、AI企業はよりシンプルかつ効率的に、必要なコンテンツのライセンスを取得できるようになる。これはAI企業にとって、財務的にも運用的にも大きな利点となり得る。
さらに、RSLはAIが生成するコンテンツの品質向上にも貢献すると考えられている。現在、AIは複数の情報源から情報を収集し、そのいずれかから大量の情報を利用することを避けるために、様々なコンテンツを組み合わせて回答を生成することがある。しかし、もしRSLによって合法的にライセンスされたコンテンツが利用可能になれば、AIは単純に最も信頼性が高く、高品質な情報源を選んで利用できるようになる。これにより、AIがユーザーに提供する回答の品質が向上し、AIが事実に基づかない情報を生成してしまう「ハルシネーション」のリスクを最小限に抑えることができる。
Doug Leeds氏は、AI企業側からも、ウェブ上の広範なコンテンツに対して効果的なライセンス手段が存在しないという不満の声が上がっていたと述べている。RSL標準は、AI企業が「必要なコンテンツすべてをスケーラブルな方法で取得」できる解決策を提供し、さらに「モデルが実際に参照する最高のコンテンツに対してのみ支払う」というインセンティブも設定している。つまり、AI企業はコンテンツを使用すればその対価を支払い、使用しなければ支払う必要がないという、公平で効率的なシステムが構築されることで、双方にとってメリットのある持続可能なエコシステムが形成されることが期待されている。