Meiji Mizutani Masahiro(水谷 正大) http://www.isc.meiji.ac.jp/~mizutani/

CSV形式〜機械可読性を配慮したデータ公開

分析集計に有用なデータはインターネットを介して容易にアクセスできるようになってきている。 表データはGUI操作などによって人手によって、個々のファイルを閲覧したり分析されるだけでなく、むしろ集計作業の多くが定型作業であることを考えると、コンピュータプログラムによってデータを取り込んで一括処理できることが望ましいことが少なくない。

文字列(記号列)だけからならファイル、つまりテキストファイルを機械可読なデータ(machine readable data)という。 文字列情報だけであれば、OSやソフトウエアによらずにどんなコンピュータでも1文字ずつ読み込むことが可能である(それゆえに機械可読という)。 文字列情報とは、ASCII文字集合や日本語文字集合(様々な符号化がある)あるいは多文化の文字集合を包括するためのUTF文字集合のように文字とその符号化法が規格化されている文字空間に属する記号列である。

たとえば、ワードプロセッサで作成されたファイルは、そこに書かれている文字列情報だけでなく、文字の大きさや配置や色など作成当該ソフトウエアにだけ意味のある制御情報(当該文字列空間にマップすると「文字化け」を引き起こす)も同時に埋めこまれている。 そのようなファイルをエディタ(文字列情報を閲覧・編集)で開くと、それらの情報が特別な書式で書き出されていることを確認できる。
不幸な出来事であるが、2011年3月11日の東北地方太平洋沖地震による福島第一原子力発電所の部分崩壊に起因する放射線計測データの公開はデータ公開に関する大きな教訓を私たちにもたらした。 関係者や多くの研究者によって多くのデータが収集され公開されてきたが、その多くは、例えばPDF形式であったり、場合によっては手書きデータをスキャンした形で公開されていた。 中には、表示文字列のコピー&ペースができないようにセキュリティ保護をかけて「公開」している場合も少なからず存在した。 これでは、収集したファイルから文字列情報(文字や数値データ)を直接取り出すことが難しく、自動処理が行われる、結果として放射線分布の現状把握とその対策などに重大な遅滞を引き起こすことが多くの専門家から指摘された。

こうした多くの要望を受けて政府(通商産業省)は 「東北地方太平洋沖地震等に係る情報提供のデータ形式について」と通達するに至った。 情報収集およびデータ分析の立場からは常識である機械可読性の確保は、情報公開に際して重要なチェック事項にあることを是非理解してもらいたい。 情報公開という行為だけでなく、そのあり方も同時に問われるのである。

機械可読なテキストファイルであれば何でもよいわけではない。 自動処理が容易であるようなテキストファイルのあり方については、自動処理が具体的にどのように実施されるのかをある程度知っておく必要がある。

ただし、政府情報の多くは依然としてPDF形式や表データではExcel書式で公開され続けている。上の通達にあるようなHTMLやCSV形式での配布は行われていない。 人間にとっての読みやすさや、勝手な改変を防ぐという理由がその言い分である。 たしかに、たとえばCSV形式での表データは人間には読みづらい。 しかし、一方、Word文書やPDFファイルをメールで添付するだけの「お知らせ」と称するメールは少なくないのも事実である。 開いてみると、単純な会議通知だったりするのであるが、それなら文字情報を取り出してメール本文とし、印刷用にPDFファイルを添付するという簡単な配慮に欠けている。

AndoroidやiPhoneなどのスマートフォンでビジネスメールを読む機会がますます多くなっている。 短い通知文書ならば、かりにワードプロセッサで作成した文書であっても、わずかな手間を惜しまずに、メール本文に文字情報をペーストし(たいていは、それで足りてしまうことが多い)、読みやすさと(念のための印刷用に)PDF/Wordファイルを添付するとうのが基本である。