CSV形式〜機械可読性を配慮したデータ

分析集計に有用なデータはインターネットを介して容易にアクセスできるようになってきている。 表データはGUI操作などによって人手によって、個々のファイルを閲覧したり分析されるだけでなく、むしろ集計作業の多くが定型作業であることを考えると、コンピュータプログラムによってデータを取り込んで一括処理できることが望ましいことが少なくない。

文字列(記号列)だけからならファイル、つまりテキストファイルを機械可読なデータ(machine readable data)という。 文字列情報だけであれば、OSやソフトウエアによらずにどんなコンピュータでも1文字ずつ読み込むことが可能である(それゆえに機械可読という)。 文字列情報とは、ASCII文字集合や日本語文字集合(様々な符号化がある)あるいは多文化の文字集合を包括するためのUTF文字集合のように文字とその符号化法が規格化されている文字空間に属する記号列である。

たとえば、ワードプロセッサで作成されたファイルは、そこに書かれている文字列情報だけでなく、文字の大きさや配置や色など作成当該ソフトウエアにだけ意味のある制御情報(当該文字列空間にマップすると「文字化け」を引き起こす)も同時に埋めこまれている。 そのようなファイルをエディタ(文字列情報を閲覧・編集)で開くと、それらの情報が特別な書式で書き出されていることを確認できる。