鉄は熱いうちに打て
=============================

Webスクレイピング入門の予習 - robots.txt

2019-02-04

2/11に PyLadies Tokyo Meetup #38 Webスクレイピング入門 でスクレイピングのハンズオンの進行をすることになりました。 まぁ、やりたいことは調べながら実装はできるくらいですが、せっかくなので、勉強会駆動学習ということで、なるべく予習していこうと思います。

使うのは以下のライブラリ。

まずは、あまり詳しくないrobots.txtを予習しよう

robots.txt

自動でインターネット上に存在するページをどんどん分析していく処理があります。 クローラーといいます。 ほっとくと勝手にどんどんページにアクセスしてきます。

代表格がGoogle様。頼んでもないのに勝手に検索結果にWebサイトを表示してくれます。 まぁ、これがないと便所の落書き、チラ裏のメモと同じなのですが。 他の人が書いた有益な情報が読めるのもGoogle様のおかげです。

そういっても、検索エンジンに出してほしくないページやアクセスしないでほしい場所とかあるでしょう。 ということで、クローラーへの指示を書いておいておくことができます。 これがrobots.txtとrobots metaタグだそうです。

Robots Exclusion Protocol (Wikipedia) として標準化されています。

あくまでクローラーにこうしてね!ってお願いするだけのテキストなので強制力はないそうです。 でも、インターネット上で嫌われたくなかったら守ろうね。って感じみたいです。

試しにこのブログにも置いてみました。

すべてのクローラーに _images_static というフォルダをクロールしないでね。って書いてみました。

User-agent: *
Disallow: /_images/
Disallow: /_static/

拘束力はないらしいのですが、検索サイトなどを作るときはRobotsに従ったクロールをする必要があるそうなので、設定しておくのは悪くなさそうですね。