ウェブスクレイピング技術を使ったシステム開発事例|大阪のホームページ制作会社 SmileVision

PR ウェブスクレイピング技術を使ったシステム開発事例

ウェブスクレイピングという技術があります。
これはウェブ・クローラーとも呼ばれたりもしますが、WWWのコンテンツを自動で取得する技術のことです。

ウェブスクレイピング技術は、多くの検索エンジンによって採用されており、ウェブスクレイピング技術を使って定期的にサイトをクロールして最新の情報を取得していきます。

この技術、実は私たちの得意分野でもあります。そこで今回は私たちの開発したスクレイピング技術を使ったシステムをご紹介したいと思います。

ウェブスクレイピング技術を使ったサービス事例

まず、一般の方がスクレイピング技術と聞いてはじめにいわれることは「ウェブスクレイピング技術は検索エンジン以外は必要ないんじゃないの?」ということです。

ネット上のデータを自動でデータを取得する技術と聞くとそのように思われる方も多いかもしれませんが、実はいろんな業種でも便利に利用できるのです。少し事例をご紹介したいと思います。

事例:企業のIRサイトをウェブスクレイピング技術でクロール

とある企業より投資家向けに便利なサービスを提供したいというお問い合わせをいただきました。
お話を聞くと、投資家はなにより株の値動きを誰よりも早く知りたい。そして株の値動きには企業の発信される新サービスのお知らせや経営状況・財務状況、業績動向に関する情報などが株価の値動きを左右するとても重要な情報だということがわかりました。

そこで私たちはウェブスクレイピング技術を使って上場企業のIRサイトをクロールし、IR情報が更新されたら◯秒以内にいち早く会員へ提供するアプリサービスを作らせていただきました。

これはリリース直後から大変反響があり多くの投資家の皆様にご利用いただくサービスになりました。

事例:人気車種の落札額をウェブスクレイピング技術で取得

また、とある中古車販売企業様からは、仕入れや販売に関する金額設定の効率化をしたいというご相談をいただきました。

今は経験豊富な担当者が、カンと度胸で仕入れと値決めをしており非常に効率が悪く、ある程度誰でも業務ができるようにできないかということでした。

そこで私たちは特定の人気車種を仕入れオークションサイトの落札額をウェブスクレイピング技術で取得して、そのデータの蓄積を元に仕入れ値の上限・下限の指標を出せるようにしました。

また販売金額もカーセンサーやグーネットやヤフオクなどのサイトから日々の値動きをスクレイピングで取得して、値決めに使うシステムを作らせていただきました。

スクレイピング技術はデータの蓄積という点においても非常に役に立ちます。

スクレイピングの安全性について

そして今日もある企業様へスクレイピング技術を使った提案をさせていただいてそんなことできるの?ととても喜んでもらえました。

しかし皆様心配されるのは、スクレイピング技術の安全性についてです。そこでスクレイピング技術の安全性についても簡単に記載したいと思います。

技術的な安全性

技術的な心配としては、スクレイピング技術によってクローラーが情報を取得する際に相手側のサイトへアクセスする必要があり、相手側のサーバーにアクセス負荷がかかるのではないかという問題です。

もちろんいくら高機能なマシンだからといっても、スクレイピングで1秒間に何10ページ分も情報取得すれば、短時間に何度もアクセスすることになり相手側の負荷になるケースがあります。しかし、例えば1〜3秒間に1ページのクロールする程度であれば、人間がアクセスする場合と同じですからほとんど負荷はかかりません。スクレイピングの安全性も技術次第ということです。

法的な安全性

もう一つの心配として、スクレイピング技術で取得した情報について著作権の心配をされる方もいらっしゃいます。このスクレイピングによって他人の著作物を収集することは著作権の侵害に当たらないのでしょうか。著作権法47条の7にこのように書かれいます。

著作権法47条の7

著作物は、電子計算機による情報解析(多数の著作物その他の大量の情報から、当該情報を構成する言語、音、影像その他の要素に係る情報を抽出し、比較、分類その他の統計的な解析を行うことをいう。以下この条において同じ。)を行うことを目的とする場合には、必要と認められる限度において、記録媒体への記録又は翻案(これにより創作した二次的著作物の記録を含む。)を行うことができる。ただし、情報解析を行う者の用に供するために作成されたデータベースの著作物については、この限りでない。

つまりインターネット上に掲載されている公開情報を取得すること自体は法的にも問題はありません。

法的に問題があるとすれば、取得した情報をそのまま使用したり販売した場合です。あたかも自分で作った著作物であるように錯覚を与えるようなことをすれば著作権侵害にあたります。

取得した情報をそのままではなく、その情報を使って違うアプローチをしたり、違う価値をつける必要があります。何かしらのオリジナリティを加えて使用すれば著作権侵害にはあたりません。

もっと詳しく知りたいというかたは、法律の専門家にご確認ください。

スクレイピング技術を使った代表的なサービス

みなさんスクレイピング技術についてなんとなくご理解はいただけましたでしょうか。それでは最後に、スクレイピング技術を使った代表的なサービスをご紹介します。

グノシー 無料で読めるニュースまとめ

グノシー
無料のニュースアプリ、グノシー(Gunosy)は、「エンタメ」「スポーツ」など、幅広い分野の旬のトピックがまとめて読むことができます。100以上のメディア様の情報をご用意しており、チャンネルとして追加していただけます。また、マンガも無料で続々配信中です。

言わずと知れたニュースキュレーションサイトです。ニュースの多くはスクリーピング技術によって各ニュースサイトから取得されています。非常に技術が高く、スクレーピングに関する技術書も執筆されているほどです。

trivago.jp 世界中のホテル料金を比較

trivago.jp
trivago.jpには数百万もの口コミや写真が掲載されているため、ご希望の料金プランが簡単に見つかります。

トリバゴといえば、国内外の宿泊施設に関する料金比較を扱う、ウェブサイトです。スクレイピングによって複数のサイト情報を取集し最安値を簡単に見つけることができます。

Indeed (インディード)

Indeed
インディードは、求人情報専門の検索エンジンである。単独の分野に特化した検索エンジンとしては、垂直検索の一例でもある。求人サイト、新聞などのメディア、各種団体、企業の採用ウェブページなど、数千のウェブサイトを巡回して求人情報を収集している。検索結果は求人情報が実際に投稿されている掲載元へリンクしており、求職者は掲載元で求人情報の詳細を閲覧し、求人への応募も掲載元で行う。また、Indeed上から直接応募できる求人もある。いずれの場合もIndeedが採用に直接関与することはない。検索結果の表示画面の広告掲載により収益をあげており、求職者は無料で求人情報検索やそれに付随するサービスを利用できる。

CMでもよくみる求人サイト。求人情報専門検索エンジンとして、WWW上にある求人情報をスクレイピングしてまとめられているため、利用者はindeedを使うと世界中の求人情報を検索することができます。

このようにスクレイピング技術は、使い方によって非常に便利な技術といえます。ご興味のある方はぜひ一度スクレイピング技術についてご相談ください。

その他、納期・料金・こんなことできますか?など、お気軽にご相談くださいませ。
TEL:06-6363-2780(平日 9:00~19:00)
EMail:info@smilevision.co.jp

お問い合わせフォーム

ABOUT ME
杉若 太郎
杉若 太郎
プロフィール 大阪出身。2000年JTBグループに入社。WEB事業部に配属後、旅行サイトや旅館のホームページ制作に携わる。2004年に独立、大阪市北区扇町にてホームページ制作・システム開発会社、スマイルヴィジョン立ち上げに参画。代表取締役に就任。 2018年新たにコワーキングスペースの運営をスタート現在に至る。 ■入社年 2004年 ■趣味 パズドラ、プロレス観戦