Webからの情報収集

Webサービスとは

インターネットで最も発展しているサブメディアのがWebである。インターネットをWebと混同している人も多い。
WebはWebページといわれるマルチメディア文書(文字、画像、動画、音声など各種表現メディアが混在した文書)をインターネットで配信/閲覧するサービスである。個々のWebページはワープロ文書と似ているが、閉じたコンテンツではなく、ネット上の他のWebページとハイパーリンクされた、開いたコンテンツである。コンテンツが互いにリンクで結ばれた全体像がクモの巣(Web)にたとえられた。世界規模に広がっているため、World Wide Web(WWW、W3)とも呼ばれる。
ブラウザというアプリで、WWW内のさまざまなページを見て歩く行為を、昔はネットサーフィンと呼んだ。この名前には娯楽の趣きがあるが、現在では企業や組織、個人、グループなど、さまざまな主体がWebによる情報発信をしている。もはや社会生活の一部として生活情報の収集、仕事、公的手続(納税、申請、出願)、ショッピングなどの強力な手段にもなっているので、重要な社会インフラと言ってよい。テレビや新聞など既存マスメディアを補完する機能も担っている。
また情報収集だけでなく、逆に情報発信にも使える双方向メディアである。インターネットの登場以前、個人はマスメディアから情報を受け取るだけで、広く社会に情報を発信する手段はほとんどなかったから、これは社会を変えるほどの革新だ。この単元では、Webサービスの利用法のうち、情報収集について扱う。情報発信については、山之口洋の はじめてのICT【応用編】step03 Webによる情報発信で扱う。

Webサービスの仕組み

Webサービスの動作

WebページはローカルPC上で制作するが、Webサイトに組み込んで他のPCから閲覧できるようにするにはWebサーバというコンピュータにページを転送し、同じくWebサーバというアプリ※1の管理下に置かなくてはならない。Webサービスの全体構成を図1に示す。

1 サーバクライアントという用語についての、この2重語義(double meaning)は、メディアという用語の3重語義(triple meaning)とともに、初心者を混乱させる一因なのだが、依然解消されない。

図1: Webサービスの全体構成

1つのWebページの作成・登録・閲覧までの流れに沿って、Webサービスの動作を理解しよう。

Webページの作成
ローカルPC上で、HTMLやCSS、Javascript、JQueryなどの言語を使ってHTMLファイルを制作する。このファイルがWebページの本体である。テキスト以外のマルチメディア要素も個別のファイルとして準備する。この作業には、Webページ作成支援ツール(Homepage Builderなど)も利用できる。
Webサーバへのアップロード
FTPクライアント(FFFTPなど)でFTPサーバに接続し、作成したHTMLファイルと付属するマルチメディア要素のファイルをWebサーバ(ハードウェア)に転送する。
Webサイトに登録
転送したファイルの属性などを調整し、Webサーバ(ソフトウェア)にWebサイトの一部分として登録する。厳密にはこの時点ではじめてWebページになる。
Webページの閲覧
ブラウザにURIを入力すると、ブラウザからWebサーバ(ソフトウェア)にページを要求するリクエスト(HTTPプロトコルによる)が送信され、そのページの本体であるHTMLファイルと付属するマルチメディアファイルがパソコンに転送されてくる。ブラウザはHTML/CSSの指示に従って表示を組み立て、画面にWebページが表示される。

Webサイト

一群のWebページから構成される一まとまりの公開データをWebサイトという。この単元の課題レポートで制作してもらう自己紹介サイトは、Webサイトの典型だ。一般的なWebサイトの構造を図2に示す※2
Webサイト中のページは、ふつう同一の発信者(個人、組織)が作成するので、Webサイト内のデータ構造(ハイパーリンクなど)は発信者がコントロールできるし、Webサイトの境界(図中の大きな( ))は明確である。だが、Webサイトは、一般に閉じたデータではなく、ハイパーリンク(外部リンク)を介して外部のWebサイトやページにもつながっている。つまり開いたデータである。当然、発信者は外部のWebサイトやページをコントロールできないので、世界規模のWeb全体(WWW: World Wide Web)に特定の管理者は誰もいない。

図2: Webサイトの構造
Webサイト関連の用語は混乱しており、完全な統一見解もないようだ。さしあたり以下の理解で問題ない。
Webページ
1つのHTMLファイル(と関連するマルチメディアファイル)からなる1つの文書。
ホームページ
あるWebサイトにアクセスしたとき、最初に表示されるWebページ。トップページは和製英語なので使わない方がよい。
Webサイト
1つのホームページと、一般に複数のWebページからなる一まとまりの公開データ。Webサイトをホームページと呼ぶのもやめよう。

2 ハイパーリンクによってネットワーク化されたWWWの構造(図9-2)と、回線によってネットワーク化されたインターネットの構造(図8-1A/B)は、グラフ理論的には同型だが、働きは全く異なる。ネットワーク回線には情報が流れるが、ハイパーリンクには情報が流れず、物理的実体もないからである。単に行き先を示す道しるべ(陣馬山の頂上に立っていた⇐NEW YORK 15,000Kmのような)である。有識者さえ時にこの点を混同する(参考:立花隆『インターネットはグローバル・ブレイン』。谷田和一郎の『立花隆先生、かなりヘンですよ』で批判された)。

Webページの性質

ブラウザ画面に表示されたWebページには、以下のような特有の性質がある。上の2点は、表面的には似ているワープロ文書との相違点であり、最後の点は共通点である。

ハイパーテキスト性
ネット上の他のページとハイパーリンクでつながっており、リンクをたどれば世界中のWebページをあたかも単一文書のように閲覧できる。互いにつながったテキスト(ページ)の総体をハイパーテキストと言う。
インタラクティブ性
ユーザとやり取りし、表示情報を変化させられる。ユーザが入力したキーワードで検索したり、ゲームやシミュレーションなど複雑な動作もさせられる。これは、Webサーバ側のプログラム(CGI)に入力情報を渡して動的Webページを生成したり、Webページのソースに含まれるスクリプト(Javascript、ActiveXなど)をクライアント側で実行することで実現している。
マルチメディア性
テキストだけではなく、静止画、動画、音声などのマルチメディアデータを含めた文書を制作できる。

Web情報の検索

情報源としてのWeb

Webを情報伝達メディアと捉えた場合、情報発信の主体はさまざまであり、それぞれの立場も異なっている。新聞やテレビなどの既存マスメディアにも立場の差はあるが、それよりも大きなバラツキがあることに注意が必要だ。
したがって、発信された情報内容の信頼性、バイアスなども、個々の発信者についてある程度の知識がなければ判断できない。なんとなくテレビを視聴するときのような、受動的な態度で接するのは危険だ。情報の受け手として、常に主体的・批判的※3な態度を保ちつつ利用しなくてはならない。それを忘れなければ、Webは有用な情報をふんだんに、しかも無料で提供してくれるありがたい情報源になりうる。

3 言論を取り巻く状況が貧困なわが国では、批判的というと、反論したり悪口を言ったりする意味に取られがちだが、それは違う。自分自身の知識体系と照合しながら情報を取り入れるというのが本来の意味である。

たとえばレポートを書くためには調査が必要だが、Webには膨大な量の電子化情報(テキスト、画像、音声、動画など)が存在するから、必要な情報をすばやく探し出す検索スキルを習得すれば、非常に有力な情報源になる※4

4 実際の調査では、Webだけで必要な全情報を揃えられることはまれであり、書籍、新聞、放送、インタビュー、アンケートなど、他の情報伝達メディアと併用することがほとんどである。インターネット上には膨大な情報があるように見えるが、それに比例して重複も多いし、年月が経過した情報は消えてゆくのが普通だ。私自身が特定の調査(たとえば歴史小説を執筆するための調査)で体感するインターネットの情報量は、書籍などの活字メディアより1桁以上少ない。著作権などの制約が解決されない以上、この現状は当分続くと思った方がよい。

情報伝達メディアとしてのWebには、以下のような性質がある。上の2つはメリット、下の2つはデメリットである。

メリット

即時性
情報が速い。ある事象が起きてから新聞報道までには半日から1日、週刊誌なら数日、書籍なら月単位のタイムラグがあるが、Webには1時間以内に最初の情報がアップされることも珍しくない。
多言語
世界中から鮮度の高い情報を集められる。そのためには調査する側にある程度の語学能力、特に英語の読解力が必要だが、英語以外はWebの機械翻訳サービスを活用すれば、知らない言語も含めて各国語による情報を入手できる。

デメリット

匿名性
出所のはっきりしない情報が多い。匿名すなわち低品質ではないが、レポートなど出典を明らかにすべき知的生産物には使いにくい。
低品質
信頼性の高い情報と低い情報が混在しており、他者のファクトチェックを経ていない情報(極端な場合はデマ)も多いので、平均すれば品質レベルは低い。したがって、情報源の信頼性については調査者が個別に判断しなければならない。

Webからの情報収集は新聞・書籍などの従来メディアに比べて操作そのものは手軽だが、高品質な情報を入手するには神経を使うことが多い。自分のメディア・リテラシーを磨く修行の場だと割り切って知的努力を続けるしかない。
また、Webに向くテーマと活字メディアに向くテーマがある。たとえば歴史上の事実や人物を調べる目的では、活字メディアに遠く及ばない。逆に、まだ活字にならない新しい情報や、ある事実についての世間の評判を知るのには、Webに勝る手段はない。ある事柄がどの程度話題になっているか、どのように論じられているかを把握するには、以前は費用をかけてアンケート調査を実施するしかなかったが、現在ではWeb検索のヒット件数からかなりの精度で推測できる。広告、新聞、放送業界の人は社会の流行(トレンド)を把握するために、Web検索を最大限に活用している。時にWebに頼りすぎていると感じるほどだ。

検索サイト(サーチエンジン)の種類

Webには膨大な情報が存在し、日々刻々と更新され、いわば新陳代謝している。上手に活用すれば生活を豊かにするさまざまな情報を入手できるが、そのためには自分が求める情報が存在するURIを知らなくてはならない。そのための技術が検索サイト(サーチエンジン)である。Webを情報源として活用するには、検索サイトの利用法を熟知する必要がある。
サーチエンジンには表1のような種類がある。それぞれの特徴を知り、目的に応じて使い分けるとよい※5


5 ディレクトリ型とロボット型の境界はあいまいになりつつある。Yahoo!ディレクトリの提供は2014年12月31日に終了した。

表1:検索サイト(サーチエンジン)の分類

種類 代表的な検索サイト 機能・利用法
ディレクトリ型 Yahoo! JAPAN Webサイトをディレクトリと呼ばれる階層構造(PC内のファイル階層に類似)に整理し、各サイトからあらかじめ登録された情報を検索するタイプ。求めるサービスをもとにURIを探すために利用する。ロボット型に比べて提供される情報の質が高いが、取りこぼされる情報も多い。
ロボット型(全文検索型) Google ソフトウェアロボット(スクレイパー)で、各サイトから自動収集したWEBページをテキスト、画像などの表現メディア別にデータベース化し、検索機能を提供するタイプ。検索語を本文に含むすべてのWebページが表示されるので、取りこぼしは少ないが、適切な検索語を与えなければ無駄な情報(ノイズ)の率が高くなりすぎる。
メタサーチ(メタ検索) Ritlweb 厳密には検索エンジンではない。自らは検索機能を持たず、ユーザが入力した検索語を多数の検索サイトに投げ、検索結果を取りまとめて表示するサービスサイト。
特定目的型 画像系、芸術系、文学系、料理系、地域情報系、ホテル検索など多数 汎用の検索サイトと異なり、ソフトウェアロボットで特定多数のサイト上のWebページを自動収集してデータベース化し、検索機能を提供するタイプ。たとえば「Web画像」「絵画」「本のタイトル」「料理のレシピ」「アーティスト名」「地方自治体の発信ページ」など、目的に特化した検索ができる。自分の専攻、職業、趣味に関係ある特定目的型検索サイトをいくつか把握しておくと便利だ。

検索キーワードと検索式

検索サイトの検索欄(テキストボックス)は、検索キーワードを入力するところ、と考えているかもしれないが、正確には検索式を入力する場所である。
検索式は論理式(真偽値を値とする式)の1種であり、1つ以上の検索キーワードの組み合わせからなる。例を示す。

  1. 落語 and ブラック and オーストラリア
  2. ムーミン and (オンエア or 放映 or 放送)
  3. マック not ハンバーガー
使える論理演算子(and、or、notなど)の種類と表記は検索サイト毎に異なる。検索オプションなどの別インタフェースで提供されている場合もある。
論理演算子のうち、andは省略できるので、1は「落語 ブラック オーストラリア」とも書ける。このことが多くの人に、検索欄は検索キーワードを並べて入れるところと誤解させている。
だが、求める情報内容に即した適切な検索式を使いこなせれば、検索効率は格段にアップする。
上記検索式において、各キーワード(たとえば「落語」)は「p("落語")」、つまりこのページに「落語」という文字列が含まれるという命題を表している。命題自体も真偽値を持つが、データベース中の全ページが検索式で表される命題でテストされ、真になるページだけが検索結果(つまりとなったページの集合)に表示されるのが、検索サイトの動作である。

ヒット率とカバー率

Web検索サイトに限らずよい情報検索のために考えるべき指標※6として、ヒット率カバー率の2つがある。

6 よい検索エンジンの開発指標も、実は同じである。私は以前、地方自治体のページを集めた特定検索型エンジン「地域検索」を開発したが、そこで考案した新規機能もこれを目標にしていた。

ヒット率
検索結果の内、検索者の意図に合う項目の比率。
カバー率
真の正解群の内、検索結果に含まれる項目の比率。
これらの指標の意味を模式図を図3に示す。

図3: ヒット率、カバー率の概念とトレードオフ
これらの定義を知らない検索者でも、ヒット率は意識している。ヒット率が下がると、ノイズが多くなる感覚があるからだ。だが、真の正解群は知り得ないので、カバー率のことは気にしない。だが真の正解群は必ず存在するので、現状のカバー率がどのくらいか意識するだけで検索スキルはレベルアップする。
しかし、この2つの指標は、一方を上げようとすると他方が下がるトレードオフ関係にある。そこで、適切な検索式を与えることにより2つの指標のバランスを取ることが、効率的な検索の鍵だといえる。

演習:検索の鉄人

Webによる情報収集の初歩的段階は、クイズのような知識(トリビア)を入手したり、真偽を確認することである。検索エンジンの使い方が正確で速い調査の鍵となる。個人差があるが、この能力は練習で確実に上達する。過去にはそれを競うコンテストも行われていた(検索サイトgooが主催した「検索の鉄人」コンテスト)。以下にその出題を示す(例題1と例題2の各10問、計20問)。 これらの問題は、Web上に正解が存在することが保証されているから、演習課題に適している。実際の調査では、Webに存在しない、つまり真の正解群が空集合である情報を探し続ける状態に陥ることがしばしばある。ないものを探し続けるほど無駄なことはないが、熟練すれば、早めに見切りをつけ、書籍などに調査対象を切り替えられるようになる。
10分の制限時間で例題1または例題2に挑戦し、時間内に何問正解したかを記録しよう。検索式の使用法について学習したらもう一方の例題に挑戦し、検索効率の差を実感してもらいたい。図4に、ある年の講義における正解者数の分布と変化を示す。

例題1:第2回検索の鉄人 第1次予選・ラウンド2


1.「ムーミン」を日本で最初にオンエアーしたテレビ局は? 

2.今日認められている能の演目のうち、最も古いとされ、五穀豊穰などを祝う神聖な演目とは何?(漢字一文字で) 

3.ラクロスのゴールは、タテ、ヨコ、奥行きともに同じ長さです。内側から計った場合、一辺の長さは何メートルでしょう?
     ○1.83メートル ○2.74メートル ○2.86メートル ○3.22メートル 
4.プロレスラー、初代「タイガーマスク」がデビューしたのは、西暦でいうと何年のこと?(アニメの世界の出来事ではありません) 

5.710年に遷都された日本の都にあって、その宮殿の南に位置し、つい先頃復元工事が完成した門の名は? 

6.日本初の切手をデザインした人物は誰? [難問!] 

7.次に挙げる魚のうち、卵から生まれないものはどれ?
     ○シロギス ○ライギョ ○ウミタナゴ ○アイナメ[難問!] 
8.アメリカの独立宣言が起草されたことで有名な都市があります。1976年、この都市の、あるホテルで大量発生した病気の病原体は、何菌? 

9.江戸時代の三大改革。このうち、今でいう「宝くじ」を禁止したのはどれ?
     ○享保の改革 ○寛政の改革 ○天保の改革 

10.シクラメンには、和名があります。その由来になった「ある一言」を発した歌人の名は? [難問!] 

例題2:第2回検索の鉄人 第1次予選・ラウンド4


1.明治大正時代に活躍した青い目の落語家、快楽亭ブラック。彼が出生したオーストラリアの都市名は? 

2.明治時代にお目見えした日本初の水族館は、ある動物園の園内に設置されました。この動物園とは? 

3.プロ野球界の偉大な選手が参加している「名球会」。今年の5月末現在、会員のうちピッチャー出身は何人? 

4.川島なお美も受験するというソムリエ資格認定試験。一般の人が受ける場合、その受験料はいくら?
     ○6,000円 ○12,000円 ○19,000円 ○20,000円 

5.国民の祝日「海の日」。その前身であった記念日を提案した、当時の大臣の氏名は? 

6.国際機関の略称のこと。「IMF」は国際通貨基金、「ILO」は国際労働機関、では、「IFC」と言えば? 

7.人間の涙の膜は3つの層からできています。一番内側の層の名前は? 

8.原子力発電で使用される、ウランとプルトニウムを混合して作られる燃料のことをアルファベット3文字で何という? (半角で) 

9.金の製錬法のひとつで、水、鉛、灰を使った方法のことを何という?(全角日本語で) 

10.旧日本海軍の戦艦大和。その主砲の口径(筒の直径)は何センチ?
     ○36センチ ○40センチ ○45センチ ○46センチ 

図4: 「検索の鉄人」正解者数の分布と変化