2-9 メタ分析

明治大学情報コミュニケーション学部教授
メタ超心理学研究室 石川 幹人

 以下では,メタ分析と,その超心理学における重要性について述べる。

<1> メタ分析とは何か

 メタ分析とは,「分析の分析」を意味し,統計的分析のなされた複数の研究を収集し,いろいろな角度からそれらを統合したり比較したりする分析研究法である。1960年代に社会学者のロバート・ローゼンタールが,実験者期待効果に関する一連の研究を比較研究する過程で開発した。以来,メタ分析は徐々に改善が加えられ,今では社会行動学を中心にかなりよく使われる手法となっている。
 メタ分析の長所は次のような点にある。第1に,1つの研究では見失われていた小さな関係が,多くの研究を統合することで明らかになる。第2に,研究を相互に比較することで新たな視点が得られ,将来の研究の方向づけになる。けれども使用上の注意が必要である。メタ分析は他の研究者の研究データを利用するので,メタ分析者が研究データを誤解し,誤った結論を導く可能性がある。異なった動機で収集されたデータ群の中には,違った概念に同じ名前が与えられていることもある。また,元の研究データが間違っていると,その影響を受けてしまうのも問題である。

<2> 超心理学におけるメタ分析

 1990年代以降,メタ分析は超心理学における有力な方法論になった。超心理学の1つの目的はPSIの実在の証明であるが,メタ分析による研究データの統合化が,とくに弱い現象に対して感度良く働く長所が,その証明に活用された。
 また,超心理学の分野では,メタ分析を活用しやすい諸条件が揃っていたとも言えよう。PSI実験は再現性が低いので,同じような実験が別な研究者によって何度も行なわれる傾向がある。超心理学の研究の多くは,ほとんど特定の限られた論文誌(1-3)に掲載されるので,収集が比較的やさしい。1975年以降(1-7)は,有意でない研究も論文発表が奨励されているので,後に述べる引出し効果の問題も小さい。

<3> 分析対象研究の選定

 メタ分析者は,収集した研究から,注目する観点に寄与するデータを含む研究を選び出す。その際,その研究の品質評定をする。データの収集・分析上の欠陥が発見された研究は,メタ分析には含めないようにする。このプロセスが恣意的になると,「適当に都合のいい研究だけを選んでいる」と,メタ分析自身が批判を招くので,客観的な評定基準を設定して2名以上の者で評定をおこなうのがよい。ときには,その評定値に基づいて各研究に重みをかけて分析することもある。
 選定された研究の統合には(それらを均等に評価するとき),各々のZ値を足し合わせて,研究の数の平方根(たとえば5つの研究を統合するときは,ルート5)で割ることで,統合されたZ値を求める。
 同じ問題に注目していても,この研究の取捨選択によって,かなり異なったメタ分析結果が得られることがあり,超心理学の分野でも論争例がある(3-2)。

<4> 研究の比較とエフェクトサイズ(効果サイズ)

 Z値は,有意性の指標であり,研究の比較には向かない。同じ現象を同じように捉えても,試行数が多ければ統計的有意性は高く,Z値は高くなるからである。そのためメタ分析では,Z値に加えて,試行数によらずに結果の強さを比較する「エフェクトサイズ」という指標を使う。エフェクトサイズは,Z値を試行数の平方根で割って求める(なお,エフェクトサイズは「相関係数」のような性質を持てばよく,算出法にはいくつかの方法がある)。
 エフェクトサイズの違いで,対象とする研究群がそれぞれどのような特徴を持っているか比較できる。メタ分析の前に,エフェクトサイズを調べて,評価の基準にすることもある。超心理学の場合,エフェクトサイズが大きければPSIが強く働いたと,小さければ弱く働いたと考えられる。

<5> 引出し効果(お蔵入り効果)

 普通の研究分野では,有意でない結果に終わった研究は発表されない傾向がある。すると,発表されている研究のみが分析対象になりやすいメタ分析は,この引出しにしまわれたデータによって偏った結果になる。これを「引出し効果」と呼ぶ。ローゼンタールは,引出し効果があるからメタ分析は意味がないという批判に対して,逆に引出しにしまわれている研究数を算出することで対抗した。この数が膨大ならば,それほどたくさんの研究を誰もやっているはずがないと,メタ分析の結果を擁護できる。
 しまわれた研究数(Kとする)は,先のZ値の統合計算から比較的容易に分かる。すなわち,現在の研究が引出し効果で意味があるように見えているだけだとすると,そのK個の研究を加えると統合Z値がZ=1.645(そのとき片側p値が0.05になる)などと小さくなり,有意でなくなるはずである。K個の研究のZ値は平均して偶然期待値だから0であり,統合Z値への寄与はない。すると,現在の研究のZ値をすべて足した値を1.645で割り,それを自乗した値から現在の研究数を引けばKが求まる(各自計算されたい)。

<6> PSI実験のメタ分析例

 1989年,ホノートンとフェラーリは,1935年から1987年までの強制選択予知実験309(62人の実験者)をメタ分析した。被験者の数は5万人以上,試行数も2百万回ほどになった。統合Z値は11.41,エフェクトサイズは0.020であった。この結果を有意でなくするには,14214の実験が発表されずに引出しにしまわれていると想定しなければならない。さらに,かけ離れた結果を出していた248の実験を取り除いて再分析したところ,統合Z値は6.02,エフェクトサイズは0.012であった。品質評定では8個の欠陥を評価したが,欠陥評定とエフェクトサイズは無相関であった。また次の傾向が明らかになった。選抜された被験者は,一般被験者よりもスコアが高い。個別実験は集団実験よりもスコアが高い。フィードバックを早めに与えたほうがスコアが高い。短時間に次々コールしたほうが時間をかけたコールよりもスコアが高い。
 同年,シュタインカンプらは,1935年から1997年までの,透視と予知とをはっきり区別して両方行なった22の研究をメタ分析した。透視と予知の統合Z値はそれぞれ2.68と4.15であり,(個々には有意であるが)両者の有意な違いは得られなかった。また,エフェクトサイズは0.009と0.010で違いはなかった。9個の欠陥について5人が評価したが,欠陥評定とエフェクトサイズは無相関であった。透視と予知を分離した実験では,透視のほうが有意にスコアが高かった。透視と予知を交互に混在させた実験では,予知のほうが有意にスコアが高かった。
 また同年,ブロードらは,自らのDMILS実験13(4人の実験者)をメタ分析した。271人に対して62人の被験者が遠隔的影響を試みた。その結果の統合Z値は4.08で,有意であった。
 1991年には,ラディンとフェラーリが,1935年から1987年までのサイコロPK実験148(52人の実験者)をメタ分析した。同時に,それらの一部に含まれていた,PKをかけない対照実験31もメタ分析した。データは2659名の被験者にわたり,総計2百万試行に及んだ。PK実験群の統合Z値は,なんと18.2,エフェクトサイズは0.012であった(対照群については,Z=0.18でほぼ平均,エフェクトサイズはわずか0.001であった)。この結果を有意でなくするには,1152の発表されない実験がなければならない。また,この分析では品質評定によって35の実験を分析から除外した。それにより,エフェクトサイズと品質評定の間の相関は見られなくなっている。
 他のメタ分析については,該当実験の説明の後で述べる。

<7> 順位検定の計算

 SAICリモートビューイングの実験(3-3)では,被験者が,5つの絵柄のうちから心に浮かんだイメージにもっとも近いものから順に番号をつけた。この順位のうちのどこに実際のターゲットがあったかを評価する仮説検定は,次のエフェクトサイズからZ値を求め,p値を求めると便利である。
 エフェクトサイズは,中間順位の3から「ターゲットが占めた平均順位」を引いてルート2で割ると求まる。Z値は,先ほどの逆で,エフェクトサイズに試行数の平方根を掛けて求める。

<X> 付記

 本項の内容はSSPにおけるパーマー氏とモリス氏の講演をもとにしている。また,講演資料として配布された,統計学者ジェシカ・アッツ氏の解説を参考にした。

<Y> 追記

 メタ分析のお蔵入り実験数の推定について疑問が寄せられたので解説する(2008年3月追記)。
(疑問) たとえば理論期待値50%の超心理実験があり、200の異なる実験報告についてメタ分析集計した平均値が総計51%になった場合、平均値が49%の失敗実験が200お蔵入りになっていれば十分に平均値が50%に戻るので、お蔵入り実験報告数は同数程度あればよく、けっして膨大な数にはならないのではないか。
(答え) お蔵入り実験報告数の推定は、単に期待平均だけでなく「分布」を考える必要がある。少々極端な例だが、下のグラフの赤色部分のような「平均値が51%の200の実験報告群」があったとしよう。たしかにその平均値を50%に戻すだけならば、ちょうど反対側の白色のような「平均値が49%の200の失敗実験報告群」があればよい。ところが、その「赤色と白色を合わせた分布」では、平均値は特異的でないものの、「分散値」が特異的になってしまうので、それだけでは不十分なのである(この段階ではまだ「ヒツジ・ヤギ効果(4-1)」などの超心理現象が残ってしまうことになる)。そこで、「超能力などまったくない」という理論に従う分布に戻すには、50%を中心にした正規分布(青線のグラフ)にならなければならない。だから、赤色だけが報告されたならば、その10倍以上の実験報告がお蔵入りになっていないとならない、とされるのである。


超心理学講座のトップへ戻る] [用語解説を見る] [次に読み進む