OpenAI、2023年8月にAI トレーニング用にGPTBot を発表。あなたはrobots.txtをどうする?
Table of Contents

    あなたのブログ記事をOpenAIに学習させても問題ありませんか?

    OpenAIは、AIモデルのトレーニングに使用するための新しいWebクローラー「GPTBot」を発表しました。このリリースは、最近の論争の背景にある、テクノロジー企業がWebサイトを許可なくスクレイピングしたという非難に対する回答として行われました。GPTBotは、大規模な言語モデル(例:GPT-4)を向上させるために使用される予定です。

    GPTBotは、透明性を高めるために設計されており、Webマスターがアクセスを制御できるようにすることを目指しています。このボットは、「GPTBot」というユーザーエージェントトークンを使用し、OpenAIからのものであることを示す完全なユーザーエージェント文字列を持っています。

    OpenAIは、GPTBotがペイウォールでのサインインが必要なサイトや、個人を特定可能なユーザーデータを収集するサイト、さらにはポリシーに違反するテキストを含むサイトへのアクセスを行わないことを明言しています。同社は、このアクセス許可がAIシステムの精度と機能向上に貢献すると考えています。

    robots.txtって何?

    robots.txtはGoogleなどの検索エンジンの巡回ロボット(クローラー)に、ページに対するアクセス(許可/拒否)の指示ができる便利なテキストのことです。

    WordPressブログのrobots.txtは「http://ブログのドメイン/robots.txt」から確認できます。WordPressのrobots.txtは自動で生成されるため、内容を変えたくても自分でrobots.txtを編集できません。

    もし、ブログの内容に合わせrobots.txtを編集したい場合は、プラグインなどを使って自動生成されるrobots.txtをコントロールする必要があります。

    今回はWordPressの管理画面から「robots.txt」を自由に編集できるようにするプラグイン『WP Robots Txt』を紹介します。

    「robots.txt」を編集できる『WP Robots Txt』
    WordPressプラグイン「WP Robots Txt」を使えば、管理画面からrobots.txtを編集できます。「WP Robots Txt」は無料で使えるプラグインです。

    WP Robots Txt — WordPress プラグイン

    このプラグインをWordPressにインストールして有効化すれば、すぐに使用できます。

    WP Robots Txt の使い方

    「WP Robots Txt」を使うには、WordPress管理画面の左メニューから「設定」>「表示設定」と順に選びます。

    「WP Robots Txt」プラグインを有効化していると、表示設定の項目に「Robots.txt Content」という項目が追加されています。

    このフォームに入力したテキストがrobots.txtに反映されます。内容を編集した後は「変更を保存」を押して、robots.txt用テキストを保存しましょう。

    「Robots.txt Content」を編集した後は「http://ブログのドメイン/robots.txt」にアクセスし、「Robots.txt Content」に入力した内容と同じのもが出力されているか確認しましょう。

    同じ内容が出力されていればプラグインによるrobots.txtの書き換えに成功しています。

    robots.txt の記述にミスがないか確認するにはGoogle Search Consoleの「robots.txt テスター」が便利です。ブログのrobots.txtに反映する前に、robots.txt に記載する内容に問題がないか必ず確認しましょう。

    『WP Robots Txt』でrobots.txtを編集
    WordPressプラグイン『WP Robots Txt』を使用すれば管理画面から簡単にrobots.txtを編集出来ます。

    特定のブログ記事を検索エンジンに表示したくないときはrobots.txtを編集して検索エンジンのクローラーの巡回を拒否しておきましょう。

    これまでrobots.txtによるインデックス拒否を使わず、メタタグのnoindexでインデックス拒否をしていたけど限界を感じていたという人は、robots.txtの活用を検討してみましょう。

    内容の薄いページを検索エンジンにインデックスさせない事はSEOやアクセスアップにも繋がりますので、robots.txtによるクローラー巡回拒否は覚えておいて損はありません。

    参考

    User agent token: GPTBot
    Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

    GPTBot が使用するIP 範囲

    ウェブマスターは、GPTBot のユーザー エージェント トークンを robots.txt ファイルに追加することで、GPTBot を完全にブロックできます。また、特定のディレクトリへのアクセスを選択的に許可し、他のディレクトリへのアクセスを制限することもできます。

    User-agent: GPTBot
    Disallow: /
    User-agent: GPTBot
    Allow: /directory-1/
    Disallow: /directory-2/

    まとめ

    OpenAIが発表した新たなWebクローラー「GPTBot」は、テクノロジー企業による無許可のスクレイピングに対する反応として注目されます。このリリースは、最近の論争を踏まえて行われ、大規模な言語モデル(例:GPT-4)の性能向上を目指す一環として注目を集めています。

    GPTBotは、透明性を重視し、Webマスターのアクセス制御を尊重することを重要視しています。そのため、「GPTBot」というユーザーエージェントトークンを使用し、OpenAIの正当なクローラーであることを示すユーザーエージェント文字列が使用されます。

    OpenAIは明確に述べていますが、GPTBotはペイウォールのあるサイトや、個人を特定できるユーザーデータを含むサイト、そしてコンテンツポリシーに違反するテキストを含むサイトへのアクセスは行いません。このポリシーは、プライバシーと遵守の重要性を反映しています。

    OpenAIは、GPTBotへのアクセス許可がAIシステムの精度向上と機能向上に寄与すると信じています。透明性と遵守への取り組みは、AIの進化において不可欠であり、GPTBotの展開によってそれが実現されることが期待されています。結果的に、より信頼性の高いAIモデルの実現に向けて、OpenAIは積極的なステップを踏んでいると言えるでしょう。

    Botクローラー条件として、個人情報やコンテンツポリシーに違反するテキストを含むサイトへのアクセスは無いと言っていますが、自分のcontentsを学習して欲しくない方は早めに設定しておいたほうがいいでしょう。

    出版物一覧











    この記事が気に入ったら
    フォローしよう

    最新情報をお届けします

    Twitterでフォローしよう

    おすすめの記事