鉄は熱いうちに打て
=============================
Webスクレイピング入門の予習 - robots.txt¶
2019-02-04
2/11に PyLadies Tokyo Meetup #38 Webスクレイピング入門 でスクレイピングのハンズオンの進行をすることになりました。 まぁ、やりたいことは調べながら実装はできるくらいですが、せっかくなので、勉強会駆動学習ということで、なるべく予習していこうと思います。
使うのは以下のライブラリ。
まずは、あまり詳しくないrobots.txtを予習しよう
robots.txt¶
自動でインターネット上に存在するページをどんどん分析していく処理があります。 クローラーといいます。 ほっとくと勝手にどんどんページにアクセスしてきます。
代表格がGoogle様。頼んでもないのに勝手に検索結果にWebサイトを表示してくれます。 まぁ、これがないと便所の落書き、チラ裏のメモと同じなのですが。 他の人が書いた有益な情報が読めるのもGoogle様のおかげです。
そういっても、検索エンジンに出してほしくないページやアクセスしないでほしい場所とかあるでしょう。 ということで、クローラーへの指示を書いておいておくことができます。 これがrobots.txtとrobots metaタグだそうです。
Robots Exclusion Protocol (Wikipedia) として標準化されています。
あくまでクローラーにこうしてね!ってお願いするだけのテキストなので強制力はないそうです。 でも、インターネット上で嫌われたくなかったら守ろうね。って感じみたいです。
試しにこのブログにも置いてみました。
すべてのクローラーに _images
と _static
というフォルダをクロールしないでね。って書いてみました。
User-agent: *
Disallow: /_images/
Disallow: /_static/
拘束力はないらしいのですが、検索サイトなどを作るときはRobotsに従ったクロールをする必要があるそうなので、設定しておくのは悪くなさそうですね。