●データの分類

データを分類するというところで、いろいろと悩む場合も多いと思います。 どうい
うところが悩みの種になるか、考えてみましょう。

データ分類で、もっとも悩ましいのは、どこで区切っていいか分からないという問
題でしょう。例えば、助動詞の「けり」と「き」を区別することはたやすいのですが、
「けり」の用法を分類しようとすると、なかなか悩ましいことになります。これは、分
類の対象が、デジタル的かアナログ的かということにもよりましょう。

たとえて言えば、「りんご」と「ぶどう」を区別するのは、はっきりとした境界線があ
りますから容易です。しかし、「りんご」を大きさで大・中・小と分けなさいということ
になると、一体なにを以て大・中・小とすべきか難しいことになります。おそらく、10
人に同じ50個のりんごを渡して、大・中・小に分けてみて下さいと言うと、完全に
一致する人は出ないのではないかと思います。

けれども、10人が全員大に分類するりんごは出てくるはずですし、同じく全員が小
に分類するりんごも出てくるはずです。ということは、要するに、大と中と小のそれ
ぞれの境界に属するものが難しいということになります。

そこで、このような場合には、なんらかの基準を独自に決めて分類することになり
ます。例えば、周囲がもっとも長い部分と高さを足して40センチメートル以上を大、
40未満20以上センチメートルを中、20センチメートル未満を小、などとするわけで
す。この基準は、唯一絶対の基準ではありません。が、りんご全体を見回して、最も
大きいりんごの特徴を見出し、最も小さいりんごの特徴を見出して、仮に設定して
やるわけです(この時、よく「勝手にやってもいいんですか?」と聞かれますが、勝
手にやってはいけません。対象の有りようをよく観察した後、その有りように即して
基準を決める
ことになります)。

そして、その基準を決めたら、一貫した分類の態度をとることが肝要です。論文と
して評価されるのは、基準として大きく逸脱した設定をしていない限りは、その一
貫性が守られているかというところです。

しかし、そのような考えで全てが解決するかというと、必ずしもそうではありません。
例えば、平板アクセントの研究をするという場合、高低があるか平板かというよう
な聴覚的な判断は、たとえ、ピッチコーダー(アクセントの高低を視覚的に表わす
装置)を利用しても、かなり難しくなります。このようなときにはどうなるのでしょう。
ある方言の研究者に尋ねたところ、何度も聞いて心証を形成して分類するのだと
いう答えでしたので、それで本当にすべてが迷うことなく分類できますかと、さらに
一種意地悪な質問をしたところ、最後、迷ったところは「えいやっ」とやるのだ、と
いうことでした。

これは、聞きようによっては、ずいぶん乱暴なことをするのだなという感じも受
けますが、何度も何度もやってみて、それで分からない部分は、結局は最終的
に決断して区分しなければならないのだ、ということでもありますし、また、それ
でひどい誤りは事実上生じないというところには、一事に習熟した人間の判断と
いうものの確かさを感じつつ(職人さんなんかは、そうですね。ぱっとつかんだも
のが、いつも一定の量になっていたりします)、また、自分がここまでやって決め
たのだからそれを信じるしかないといった自負の念を感じたりもしたものでした
(変な言い方になりますが、対象に軽く対している間は、自信も自負も生まれな
いのですが、とことんのめりこんでいくと、自信とある種の諦念が生まれたりもす
るようです)。

まとめると、まず、客観的な基準がなんとかして決まらないかを考える、決まりに
くい場合には、対象を何度も何度も見定めて分類を重ねる、それでどうしても分
けられない部分は、分類の一貫性を意識しつつ最終的な判断のもとに分類をし
てしまう、ということになります(もちろん最初から、ろくに考えもせずに豪傑風に
「えいやっ」とやるのは論外です)。

今述べたようなことは、教科書にも書いていないし、論文を読んでも書いていな
いので、「この論文を書いた人は、きっと明快な、自分などには思いも付かない
ような基準できれいに分類しているのだろうな、それにひきかえ自分は…」とい
った思いに囚われがちですが、そうではなく、みんな悩んで、最後は自分の責
任において最終判断をしているわけです(おそらく、一度でも分類をしたことの
ある人なら、深くうなずいてもらえるはずです)。