応用情報技術者試験_その9

毎日投稿チャレンジ10日目。

 

本日も応用情報技術者試験の話。

と言いつつ3回目の「用語」回なので、

ネタ切れ感と

試験の話から明後日の方向に飛んでいる、隔世の感(誤用)がある。

 

インターネットに公開されているWEBページ(アプリ)から情報を拾ってくる方法がいくつかある。

代表的なのは以下3つだ。

RSS

API

スクレイピング

 

それぞれ見ていこうと思う。

 

RSS

これはWEBページの新着があったときにお知らせしてくれる、お知らせメールのようなもの。

ただしお知らせメールとは違い、WEBページ側に自分のメールアドレスを渡す必要がなく安心。

自前のRSSリーダに、RSSとして公開されているURLを登録すると、新着を通知してくれるというものだ。

ブックマークしたWEBページを巡回して自分から情報を拾いに行く手間が省ける。

RSSリーダoutlookなどのメーラに標準機能として搭載されているので、設定も簡単だしすぐに使い始めることができる。

RSS提供者はニュースサイトをはじめ多岐にわたり、非常に強力で有用な仕組みである。

ただしRSSを提供していないWEBページの方が圧倒的に多い。

また得られる情報は定型的である。

 

API

これもWEBページ側が提供してくれる仕組みである。

規定の形式でWEBページにリクエストを投げると、決まった形式のレスポンスが返ってくるというもの。

形式だけはリクエストもレスポンスも定型的だが、内容は奥深い。

例を挙げた方が分かりが早く、例えば食べログお店検索API

これは、リクエスト中に検索条件を指定することができる。住所や店名の一部検索などが可能。

そしてレスポンスだが、複数件ヒットしたときはお店情報をリスト化して、0件の時は0件と返してくれる。

なおかつレスポンスは加工しやすい形式になっているので、表にしようがグラフにしようが利用者の思いのままにできる。

APIの欠点として、WEBページ側の公開者がかなり限られ、従量課金制を採用しているところも多い(月に何万回のリクエストまでは無料とか)のと、利用者側にプログラミングスキルが要求されるところが挙げられる。

例に出した食べログAPIだが、数年前に公開が終了している。メリット以上にデメリットが目立つようになったのだろう。

それでも、APIエコノミーと呼ばれる、API提供側も利用側も恩恵が受けられる一大経済圏はネットでは多数観測できる。

 

スクレイピング

これはWEBページ側が全く預かり知らないところで行われる、非公式な情報奪取である。

RSSAPIも公開されていない、または公開されていても相応しい情報が得られない時に、

利用側が勝手に情報を抜き取っていく手法だ。

当然利用側にプログラミングスキルは必要なのだが、やっていることとしたら別に高度ではない泥臭いことだ。

私たちが普段やっているようにWEBページにアクセスして、ページを構成しているHTML上のtab文字をインデックスとしてその記述内容を拾ってくる、これを自動化するだけ。

RPAやVBAでWEBページの特定の箇所を操作したい時、スクレイピングとは呼ばずとも似たようなソースコードを書いたことのある非エンジニアの人もいるかもしれない。

スクレイピングの最大のデメリットは、非公式に行なっていることなので、ある日急にWEBページの仕様が変わったら急に使えなくなることだ。

RSSAPIのサービス終了はある程度の猶予をもって教えてもらえる

 

以上で説明を終えるが、私は今、スクレイピングを使ってサービス開発がしたいなと考えている。

決まった時間に任意の条件にヒットした情報をゲットし、加工してメールしてくれるサービス。

IaaSでサーバを建てたいけどFaaSも使ってみたい。

そんなお話。

ここまで読んでくださりありがとうございました。