株式会社ぴよたんの癒しの森でSEをしているMOGU(@piyotan_system)と申します。
皆さんは、スクレイピングをご存じでしょうか?
Web サイトで公開されている情報の中から特定の情報だけを抽出するコンピューターソフトウェア技術のことです。
SEO関係者は、データ収穫するため、スクレイピングを使用している方は多いですが…
一般的なブログを書いている方もスクレイピングを使用している人は多いですよね。
それは、コンテンツを切り離してパクる悪質なまとめサイトが目立つからです。
そこでこの記事では、スクレイピングをブログで使用する場合、どこまでなら自動化はアウトで、セーフなのかを詳しくお伝えしていきます。
スクレイピングとクローリングの違い
Web上のデータを取得する上では、どちらも欠かせない技術。クローリングは、Web サイトの HTML 情報から特定の情報のみを取得するといった点がスクレイピングと異なります。
クローリングはWeb上を巡回して情報を収集するまでの作業ですが、スクレイピングで実施するのは情報収集だけでなく抽出・加工までも含みます
スクレイピングの著作権はどこまでOK?
スクレイピングの著作権法の条項を以下の通りです。
(著作物に表現された思想又は感情の享受を目的としない利用)
出典:e-GOV法令検索『著作権法(昭和四十五年法律第四十八号)』
第三十条の四 著作物は、次に掲げる場合その他の当該著作物に表現された思想又は感情を自ら享受し又は他人に享受させることを目的としない場合には、その必要と認められる限度において、いずれの方法によるかを問わず、利用することができる。ただし、当該著作物の種類及び用途並びに当該利用の態様に照らし著作権者の利益を不当に害することとなる場合は、この限りでない。
一 著作物の録音、録画その他の利用に係る技術の開発又は実用化のための試験の用に供する場合
二 情報解析(多数の著作物その他の大量の情報から、当該情報を構成する言語、音、影像その他の要素に係る情報を抽出し、比較、分類その他の解析を行うことをいう。第四十七条の五第一項第二号において同じ。)の用に供する場合
三 前二号に掲げる場合のほか、著作物の表現についての人の知覚による認識を伴うことなく当該著作物を電子計算機による情報処理の過程における利用その他の利用(プログラムの著作物にあつては、当該著作物の電子計算機における実行を除く。)に供する場合
情報を解析することは、著作者の同意がなくても、取得した情報を記録、加工や分析することはOKです。
これから改正されることも考えられるので、スクレイピングする方は定期的に情報をチェックしましょう。
スクレイピングを使用しているサイト
ここでは、具体的にどのような用途で使われているのかを詳しく解説します。
宿泊サイトで空室情報をリアルタイムで公開する際に活用されています。
弊社も開発中。競合サイトの検索順位を自動で収集する際に便利です。
特定の株価の変動を自動収集して、リアルタイムで確認します。
無料で使えるwebスクレイピングツール
上記のWebスクレイピングツール以外にも、初心者向けの無料で利用できるWebスクレイピングツールもあります。
個人や企業にもデータ抽出サービスを提供する日本語スクレイピングツールです。
Webドキュメントを読み取り、分析した結果を関連データに変換するAIを用いたツールです。
Webscraperは、Chromeの拡張として提供されているスクレピングツールです。
スクレイピングは違法(アウト)なの?
先にお伝えすると、「違法」ではありません。
しかし、Webサイトの利用規約にスクレイピング行為について言及されている場合など
- 利用規約で触れている場合は違反
- サーバに負荷をかけ業務妨害
- 抽出したデータを無断で公開・販売
これらに該当する場合は違法とみなされます。
データ分析を目的とし、新たにスクレイピングデータを活用する場合は合法です。
しかし、抽出したデータを無断で公開している「まとめサイト」は違法性が高いサイトです。
元ソースを提供せずにスクレイピングをしたコンテンツを自分自身のものとして発信しているサイトばかりです。
取り締りがないだけで、大半のスクレイピングを利用したまとめサイトはアウトです。
一般的な個人ブログは自動化しても大丈夫?
あくまでも自動化するのはOKです。
- ライターを雇う
- コンテンツ作成
など、仕組みを作り、自動化するのは構いません。
個人ブログも同じで、サイト利用規約や著作権を無視したスクレイピングサイトは違法です。
元ソースを提供しても、抽出したデータを無断で公開・販売すればNG対象に。
Googleはスクレイピングサイトを「無断複製コンテンツ」にしています。
無断複製されたコンテンツの例としては、次のようなものが挙げられます。
一部のウェブサイトの所有者は、検索での掲載順位を改善するにはサイトのページ量を増やすのが長期的には良い方法だ、という誤った思い込みに基づいて、コンテンツの関連性や独自性に関係なく、より評判のよい他のサイトから流用(無断複製)したコンテンツを使用しています。高品質のソースからのものであるとしても、無断で複製しただけのコンテンツは、サイトで他の役立つサービスやコンテンツを提供しない限り、ユーザーに付加価値を提供するとはいえません。場合によっては、著作権侵害にあたるおそれもあります。他のサイトと差別化する独自のコンテンツを作成するために時間を使う方が有意義です。そうすれば、ユーザーに繰り返しアクセスしてもらえるようになり、Google で検索するユーザーにとってもより有用な検索結果が表示されるようになります。
出典:Google検索セントラル「無断複製コンテンツやスクレイピング 」
先日のアップデートで、無断複製サイトは検索から除外されペナルティーを受けることになりました。
例えば、統計や学習でデータとして利用する場合は、スクレイピングしたデータをそのまま公開しなければ問題ないです。
楽天ショップやAmazonで取得したレビューを、そのまま自分のブログなどでコンテンツ公開するのはアウトになります。
しかし、そのレビューをデータマイニングするのはセーフです。私は、このように判断して利用しています。
まとめ
ブログの自動化ですが、Googleのウェブ検索のスパムに関するポリシーに該当する場合はアウトです。
- 他のサイトの動画、画像、メディアなどのコンテンツを埋め込んだだけのサイト
- 他のサイトをコピーして、若干の修正を加えた上で転載しているサイト
これらはペナルティー対象のサイトになります。
しかし、情報を解析する場合は違法ではありません。
正しい使い方をすれば、スクレイピング自体は素晴らしいソフトウェアです。
最後までお読みくださりありがとうございます。