14

調査研究に適した統計的仮説検定を選ぶ際の7つの重要項目

実験などから得られたデータの統計処理を行う場合、どの統計手法を用いればよいのか、この方法でよいのか分からないということも多いと思います。統計的仮説検定の選択を誤ると、研究結果への信頼性に疑問を持たれたり、論文が不採用にされたりすることになりかねません。この記事では、母集団の分布の型(パラメトリック/ノンパラメトリック)の違いから、統計的仮説検定の手法を選択するために重要な項目について解説します。

統計的仮説検定とは

統計検定(hypothesis testing)、あるいは統計的仮説検定(statistical hypothesis testing)とは、ある仮説が正しいのか否かを統計学的に検証する方法です。2つのデータセットが互いに有意に異なるかどうかを数学的に検定するもので、母集団分布の母数に関する仮説を標本から得た情報(データ)に基づいて統計学的な方法で検証し、対象となる変数の母集団に関する条件になんらかの差があるといえるかどうかについて確率論的な分析を行うものです。統計的仮説検定では、平均、標準偏差、変動係数などいくつかの統計的尺度を用いて計算し、それらをあらかじめ決められた基準のセットと比較します。もしデータが基準を満たせば、2つのデータセット間に有意差があると結論づけることができます。

分析するデータの種類によって、使用できる統計的仮説検定は異なりますが、一般的な手法としては、t検定、カイ二乗検定、分散分析(ANOVA)などが挙げられます。

統計的仮説検定の種類

統計的仮説検定にはいくつかの手法があり、解析の種類 や母集団の分布などに適した手法を選択する必要があります。最初に母集団のデータ分布を事前に仮定している(パラメトリック検定)か、仮定していない(ノンパラメトリック検定)かを大別して、解析の種類を狭めていきます。

1.パラメトリック検定

パラメトリック検定とは、データの母集団が何らかの分布に従っていると仮定している場合に用いられる検定手法です。分布を決める際の重要な要素(パラメータ)を持っており、事前にデータの分布が仮定できるものに用いられます。特定の分布に従っていると想定できる観測値(データ)に対して実施することで、データの分布が想定したモデルと一致しているか否かを主張する際の定量的な根拠となります。一般的なパラメトリック検定としては、回帰分析、比較分析、相関分析が挙げられます。

1.1.回帰分析

回帰分析とは、データにおける関係性や影響力を調べる統計的な手法で、主に原因と結果の関係を推測する際に利用されます。回帰分析には、単回帰分析と、その応用ともいえる重回帰分析、さらにロジスティック回帰分析があります。

  • 単回帰分析は、従属変数と独立変数の間の関係を直線で示すもので、2つの量的変数の関係、つまり目的の変数に対して説明の変数がどのように影響を与えているかを示す式(回帰式)を導き出されます。
  • 重回帰分析は、量的従属変数と2つ以上の独立変数の間の関係を直線で示すものです。単回帰分析との違いは、1つの目的変数に対する複数の説明変数の関係性を検討します。それにより、重回帰分析の式は、単回帰分析のものより複雑な式になりますが、応用範囲は広がります。
  • ロジスティック回帰分析は、複数の要因から2つの値の結果が起こる確率を説明・予測する手法で、結果も複数である点が、同じく複数の要因から結果が起こる確率を説明・予測する重回帰分析と異なります。分類の予測だけでなく、影響を与えた要素を見つけ出せるので、重要な変数を見つけ出したり、データの異常を識別したりするのに役立ちます。

1.2.比較分析

比較分析とは、2つ以上の変数の違いや共通事項などを確認し、データの差を統計的に比較する手法です。数値的な比較だけでなく、社会現象や特性のような質的なものにも使用できます。

  • t検定

t検定は、最も一般的な統計的仮説検定の1つで、正規分布に従うと予想される2つの母集団の平均値を比較するのに使われます。母集団のパラメータ(平均と標準偏差)が分らないときに、データからt値(統計量)を計算し、このt値を利用して2つの集団間の平均に差があるかどうかを検定します。以下に4つのt検定を記します。

1. 1標本t-検定

1つの標本を利用して検定する方法。1つの標本から得られた情報と母平均を比較して等しいかを判定する。

2. 2標本t検定

2標本t検定は、2つの標本を利用して2つのグループの平均値の間に統計的に有意な差があるかどうかを検定する方法。2つの母集団がいずれも正規分布であると仮定した上で、対応のないt検定(独立二群)と対応のあるt検定(関連二群)の2種類に分けられる。

  • 2標本t検定(対応のない場合)

独立二群 独立した2つの標本のサンプルサイズ、平均値、標本標準偏差をもとに、それぞれの平均値を比較するもの。対応しない 比較とは、2つのグループの母平均に違いがあるかを検定するものなので、同じ個体を比較するものは含まない。

  •  2標本t検定(対応のある場合)

関連二群 対応する2つの標本について、対応するデータ間の差をもとに、差の母平均は0であるという仮説について検定する。例えば、薬を摂取する前後の状態の比較のように、同じ個体での比較(処理の前後に差が生じたかどうかを調べる)するときに利用される。

標本の種類によって異なるt検定を行う必要があることを覚えておきましょう。

  • ANOVA(分散分析)

2つの標本の検定にはt検定が有効ですが、標本が3つ以上(三群以上)となる場合には使えません。そこで三群以上の平均値差の検定にはANOVA (分散分析)を用います。そして、この分散分析は、1つの因子が他の因子にどのように影響するかを検定する一元配置分散分析と、2つの因子を持つ標本を比較するのに利用する二元配置分散分析とに分類されます。実際、異なる標本の比較を行う場合には2つの因子が関係していることも多いので、二元配置分散分析がよく利用されます。

  • MANOVA(多変量分散分析)

MANOVAは、1つまたは複数の独立変数と、2つ以上の連続した従属変数の関係を分析するのに利用されます。複数の従属変数と、共通の独立変数との間の関係を同時に解析する、つまり回帰分析と分散分析を同時に行う手法です。

ANOVA(分散分析)では特定できない小さな違いを見つけることができるので、有意な多変量効果を得ることができる可能性を有しています。

  • z検定

z検定は、正規分布を用いる検定手法で、標本の平均と母集団の平均が統計学的に有意に異なるかどうかを検定する手法です。先述のt検定が母集団の分散(母分散)が分かっていないときに使われるのに対し、z検定は母集団の分散(母分散)が分かっているときに使います。とはいえ、母分散が分らないことが一般的なので、z検定が利用されることは多くありません。

1.3.相関分析

相関分析とは、2つの群の相関関係を調べるための手法です。相関分析は、2つ以上の変数の中から2つの変数に着目するものですが、2つの変数に相関関係はあっても因果関係はないという点が特徴的です。相関分析と回帰分析は、使用したい2つの変数の関係性を特定する点では共通していますが、この2つの分析を行う目的は全く異なるので注意が必要です。

  • ピアソンの積率相関係数(PCC:Pearson Correlation Coefficient)

ピアソンの積率相関係数(PCC)とは、線形相関を測定する一般的な方法です。2つの変数間の関係の強さと方向性を、-1 から 1の間の数値で表わすものです。1に近い値は強い正の相関を示し、0に近い値は相関がないこと、-1に近い値は強い負の相関があることを意味します。また、ピアソンの積率相関係数は、単に相関係数やピアソンの相関係数 とも呼ばれています。

2.ノンパラメトリック検定

ノンパラメトリック検定は、前提となる分布を仮定しないものなので、母集団分布が正規分布のような特定の分布をするとは仮定せずとも、どのような分布のデータに対しても適用することが可能です。ノンパラメトリック検定の種類としてはカイ二乗検定が挙げられます。

  • カイ二乗検定

カイ二乗検定は、2つのカテゴリー変数(カテゴリカルデータ)を比較する検定手法です。このとき分析対象とするデータは正規分布に従っている必要はありません。カイ二乗値とカイ二乗分布の値とを比較することで、観察されたデータにおける数と期待された数とにどのぐらいの違いがあるか、有意に異なるかどうかを数値的に評価することができます。大まかな流れとしては、①カイ二乗値を計算し、②カイ二乗分布を求め、③カイ二乗値とカイ二乗分布を比較して結論を出す-となりますが、2つの値の関連を見るためのものではないので注意してください。

正しい統計的仮説検定を選ぶために重要な7つの項目

1.研究課題

どの統計的仮説検定を採用するかは、研究課題でどのような答えを導き出したいかによって決まります。研究の方向性を決める土台となるリサーチクエスチョンは、データ構造と研究デザインの策定に役立ちます。

2.帰無仮説

リサーチクエスチョンを定義したら、帰無仮説を立てることができます。帰無仮説は、予想される観測結果に統計的有意性が存在しないことを示唆するものです。

3.研究プロトコルにおける有意水準

研究プロトコルを実行に移す前に、有意水準を設定します。有意水準とは、「有意」かどうかの判断基準であり、統計的重要度を決定し、帰無仮説が間違っているかを判断する基準となる確率になります。

4.片側検定・両側検定の選択

仮説検定には、片側検定と両側検定があるので、どちらの検定を用いるかを決めなければなりません。同じ有意水準であってもどちらの検定を用いるかで、棄却域が変わってきます。統計量が一方向に導かれる明確な証拠がある場合には片側検定を、期待される差の方向性が特にない場合には両側検定を用います。

5.分析する変数の数

統計的仮説検定において選択できる統計手法は、分析する変数の数(サンプル数)によって限定されることがあるので、仮説検定を選択する際には、分析したい変数の数を考慮しなければなりません。

6.データの種類

データが連続データなのか、カテゴリーデータなのか、バイナリーデータなのかを明確にしておくことが重要です。連続データの場合には、どの統計検定を用いるべきかを決めるために、対象データが正規分布しているか、していないかも確認しておきます。

7.母集団の分布の型(パラメトリックとノンパラメトリック)

母集団が何らかの分布に従っていれば、パラメトリック手法を用いて検定を行います。多くの場合は正規分布となります。データの母集団の分布の型を考慮しない場合には、ノンパラメトリック手法を用います。

また、どの検定を選べばよいかわからない場合は、研究責任者や統計学者などに相談できることを覚えておいて下さい。

X

今すぐメールニュースに登録して無制限のアクセスを

エナゴ学術英語アカデミーのコンテンツに無制限でアクセスできます。

  • ブログ 560記事以上
  • オンラインセミナー 50講座以上
  • インフォグラフィック 50以上
  • Q&Aフォーラム
  • eBook 10タイトル以上
  • 使えて便利なチェックリスト 10以上

* ご入力いただくメールアドレスは個人情報保護方針に則り厳重に取り扱い、お客様の同意がない限り第三者に開示いたしません。

研究者の投票に参加する

研究・論文執筆におけるAIツールの使用について、大学はどのようなスタンスをとるべきだと考えますか?