2要因の分散分析

概要

本ページ内では、2要因の分散分析を終着点とした一連の分析の手順についてまとめます。2要因の分散分析は、2つ以上の変数でグループを分けて、各グループの平均値に差があるかを知るための分析手法です。ただ、その分析をするためには、通常、以下のような流れを踏む必要があります。

1.分析ソフトとデータの準備
2.変数の合成
3.記述統計
4.2要因の分散分析の実行
5.表の作成
6.論文の記述

まず、本コンテンツでは分析にHADを用いますので、それをダウンロードして使える状態にする必要があります(1:分析ソフトとデータの準備)。次に、心理学の研究では、多くの場合、複数の項目を使って1つの概念を測定することが行われます。そうした場合に、複数の項目を本当に1つの変数として扱っていいのかをチェックする必要があります(2:変数の合成)。さらに、重回帰分析の前に、それぞれの変数の平均値や標準偏差、相関係数をチェックし、それぞれの変数の特徴を記述します(3:記述統計)。ここまでが完了してようやく一番したい分析を実行することができます(4:1要因の分散分析の実行)。分析が終わったら、心理学論文の書き方に沿って、表をまとめ(5:表の作成)、文章で記述してください(6:論文の記述)

1.分析ソフトとデータの準備

まず分析に用いるHADを使える状態にしてください。これがまだできていない方はこちらのページから準備をしてください。

次に、分析に用いるデータを準備し、HADに入力してください。Qualtricsで収集したデータを使われる方はこちらのページでやり方を確認してください。

ここでは刑事司法に対する態度(これについてはこちらのページをご参照ください)、犯罪不安、回答者の年代を含んだデータを分析に用います(実際のデータをもとにして、少し手を加えたデータです)。このデータはこちらからダウンロードできます。ご自身のデータがある方はそれを使ってください。

2.変数の合成

多くの心理学的な研究では、1つの構成概念を測定するために複数の項目を用意するといったことが行われます。今回のデータでも、厳罰傾向と犯罪不安はそれぞれ複数の項目で測定されています。

ただ、複数の項目が1つの構成概念をきちんと測定できているかは確認する必要があります。そのために用いられる統計的な手法は、①因子分析と、②信頼性係数(α係数)の確認です。どちらを使うかは先行研究で因子構造が確認されているかどうかによります。より端的には、自分で作成した尺度(項目)である場合や先行研究の尺度を変更した場合には因子分析を行う必要があります。これに対して、先行研究で用いられている尺度をそのまま使っている場合には因子分析をする必要はなく、信頼性係数を求めれば十分です。ご自身の計画がどちらに当てはまるかを確認してください。

なお、分析・判断は変数ごとに行う必要があります。たとえば、変数Aは先行研究のものをそのまま使っているが、変数Bは自分で新たに作成したものである場合には、変数Aは信頼性係数を求めるだけで足りますが、変数Bについては因子分析を行う必要があります。変数ごとに個別に判断してください。

ここで使われている変数(厳罰傾向と犯罪不安)は実際には先行研究で因子構造が確認されています(つまり、何個の因子に分かれるかはすでに示されています)。ですので、本来であれば因子分析をする必要はありませんが、あくまで例として因子分析も行っています。自分のデータを使って分析する方はご注意ください。

因子分析

まずデータを確認します。今回のデータでは、厳罰傾向を測定する項目は3個あり、cj_1からcj_3までの列に入力されています。因子分析ではこれらのデータを使いますので、これらをコピーして、「id」の横に貼り付けてください。


移動ができたら、「因子分析」にチェックを入れてください。


因子分析の前に、因子数を決める必要があります。「スクリープロット」を左クリックしてください。


「Scree」というシートが新たに作成されれば成功です。


このシートには、固有値や累積寄与、対角SMCの値などが表示されています。これらの数値から因子数を決定する手法には色々なものがありますが、初学者の方にとっては固有値で色が付いている因子数を選択するのが最も楽かと思います。ここでは「Factor1」に色が付いていますので、1因子構造が妥当であると判断できます。


もう一度「モデリング」のシートに戻り、「因子数」に「1」を入力してください(必ず半角で入力してください)。


「分析実行」を左クリックしてください。


「Factor」というシートが新たに作成されれば成功です。


下の画像の赤で囲まれた部分が因子負荷量です。すべての因子負荷量が.400以上であるため、この因子構造で確定できます。


以上が1因子解の最もシンプルな因子分析ですが、因子が複数ある場合や因子負荷量が低い項目がある場合にはもう少し工夫をする必要があります。そのような場合にはこちらをご参照ください。

信頼性係数の算出

上記の通り、先行研究ですでに因子構造が分かっている場合には、信頼性係数を求めるだけで足ります。

まず信頼性係数を求めたい項目を「使用変数」にコピペします。ここでは厳罰傾向を測定する5つの項目の信頼性係数を求めたいという想定で、5項目をコピペします。


左上の「分析」を左クリックしてください。


表示されたポップアップ画面で、右上の方にある「項目分析(α係数)」にチェックを入れます。


右下の「OK」を左クリックしてください。


「Item」というシートが新たに作成されれば成功です。


信頼性係数は上の方の「α係数」の横に表示されています。ここでは.864が厳罰傾向のα係数です。一般にα係数は.70以上であれば問題ないとされますので、ここでは特に問題はなさそうですので先に進みます。


なお、尺度に逆転項目がある場合には、少し下の「逆転後のα」の値を使う必要があります(ここでは逆転項目は入っていませんので、上の値と下の値は同じになっています)。


合成変数の作成

ここまでで厳罰傾向を測定する5つの項目を1つの変数として扱っていいことが分かりましたので、次はこれらの5項目の平均値を算出し、それを厳罰傾向の値とします。合成変数の作成にはエクセルのaverage関数を使うやり方もありますが(関数を使ったことがある方にとってはおそらくそちらの方が通常楽です)、ここではHADの機能を使ったやり方を解説します。

まず合成したい項目を「使用変数」にコピペします(上と同じです)。


「変数の作成」を左クリックしてください。


表示されたポップアップ画面で、「平均得点を算出」にチェックを入れてください。


「OK」を左クリックします。


「Score」というシートが新たに作成されれば成功です。


「Mean」の列には「使用変数」に入力した項目の平均値が入っています。ここでは5つの項目を入力しましたので、その5つの項目の平均値が計算されています。


「Mean」だと何の平均値が分からないので名前を「厳罰傾向」に変えておきます。


「厳罰傾向」の列全体を「データ」のシートに移す必要があるので、列全体をコピーします。


「データ」のシートに移動して、「ID」の右に貼り付けます。3列目で右クリックをし、「コピーしたセルの挿入」で「ID」の右に挿入できます。


下の画像のようになれば完成です。


以上の作業を変数(因子)の数だけ繰り返してください。例として用いているデータには犯罪不安(foc1からfoc5)も含まれていますので、それもここまでと同様に処理し、下の画像のようにしてください。


また、ここでは年代を独立変数として分散分析に用います。ただ、年齢はこのダミーデータでは連続変量として格納されています。ですので、分散分析の独立変数として扱うためには、離散変量に変換する必要があります。ここでは若年層(20・30代)、中年層(40・50代)、高齢層(60代以上)の3つのカテゴリーに分けましょう。エクセルのifelse関数を使うやり方などやり方は複数ありますので、慣れているやり方で変換してください。なお、HADでのやり方はこちらから確認できます。

以下のような状態になれば完成です。


3.記述統計

ここまでで分析に使用する合成変数は作成されましたが、分散分析の前には他にもしないといけないことがあります。分散分析と一緒によく行われる分析は、記述統計(平均値、標準偏差)の算出です。これらの情報はメタ分析の際にも必要になりますので、特段の事情がない限り論文には含めておくべきでしょう。

平均値と標準偏差

「データ」のシートで「データ読み込み」をクリックしたうえで、平均値と標準偏差を求めたい変数を「使用変数」の横に貼り付けます。


「分析」を左クリックしてください。


表示されたポップアップ画面で、左上の方にある「要約統計量」にチェックを入れてください。


右下にある「OK」を左クリックしてください。


「Summary」というシートが新たに作成されれば成功です。


「平均値」と「標準偏差」の列にそれぞれの値が表示されています。たとえばここでは厳罰傾向の平均値は4.244、標準偏差は1.100であることが分かります。


4.分散分析の実行

ここまでの処理を行ってようやく分散分析を行うことができます。

まず分散分析に投入する変数を「使用変数」の横にコピペします。ここでは年代と性別を独立変数、厳罰傾向を従属変数にしたいので、これら3つの変数(年代、性別、厳罰傾向)をコピペします。


「回帰分析」にチェックを入れます。


下の方にある「分散分析」にもチェックを入れます。


「目的変数」の横に「厳罰傾向」を、「モデル」の横に「年代」と「性別」をコピペします(HADでは「目的変数」は従属変数、「モデル」は独立変数を意味します)。


「分析実行」を左クリックしてください。


「Anova」というシートが作成されれば成功です。


結果の読み方

分散分析では、①モデル全体の有意性の確認②(モデル全体が有意であった場合には)個別のグループ間の差の検討(心理学では「多重比較」と呼ばれます)という順番で分析を進めます。①モデル全体の有意性の確認では、グループ間のどこかに差があるかをチェックします。したがって、①の段階で有意にならなければ②に進む必要はありません。他方、①で有意になった場合でも、具体的にどこに差があるかは分かりません。そのため、②の段階でどこに差があるのかを特定する必要があります。

また、2要因の分散分析の場合には、上記のステップを変数ごとに検討する必要があります。以下では、①モデル全体が有意かを年代と性別ごとに検討し、②有意差が見られた場合には水準間の比較(多重比較と呼ばれます)に進みます。

モデル全体は有意か

これに対応する結果は、「要因の効果」の欄の中に書かれています。独立変数ごとに結果がまとめられています。上の行は年代の効果、下の行は性別の効果です。


最も重要なのはp値です。これが0.05以下であれば有意(差があると言える)、0.05を上回っていれば有意でない(差があると言えない)と判断します。

年代のp値は.005となっており、.05以下です。したがって、年代ごとに厳罰傾向の差があると言えます。


また、性別のp値は.042となっており、こちらも.05以下です。したがって、性別ごとに厳罰傾向の差があると言えます。


以上の通り、どちらの独立変数についてもどこかに差があることは確認できましたので、次のステップに進みます。

水準のどこに差があるか

これに対応する結果は、少し下の「要因」の欄に書かれています。ただし、この欄は独立変数ごとにまとめられていますので、順番に見ていく必要があります。

まず、「要因:年代」には年代の多重比較の結果が書かれています。ここで重要なのは「多重比較」と書かれた表です。


この表には、水準ごとの組み合わせに有意差があると言えるかがまとめられています。たとえば、「水準の組」の列にある「1-2」は水準1(若年層)と水準2(中年層)の間の差が有意かに関する結果が示されています。


ここで重要なのは「調整p値」です。ここでも先ほどと同じように、p値が.05以下であれば有意、.05を上回っていれば有意でないと判断します。

それぞれの結果を見てみると、「1-2」の差に関する調整p値は.09ですので、.05以下です。したがって有意です。「1-3」の差も.010ですので有意です。他方、「2-3」の差は「ns」(Non-Significant(非有意)」の略です)となっておりますので有意ではありません。まとめると、若年層と中年層の差と若年層と高齢層の差は有意だが、中年層と高齢層の差は有意でないということになります。


効果の方向(つまり、たとえば若年層と中年層どちらの値が大きいのか)は図を見て判断するのが楽です。この図を見ると、若年層はかなり値が小さいのに対して、中年層と高齢層は値が大きく概ね同水準であることが見て取れます。


以上をまとめると、中年層および高齢層は若年層と比べて有意に厳罰的である(あるいは、中年層および高齢層と比べて若年層は有意に厳罰的でない)とまとめることができます。

同じようにして、性別の結果も見てみましょう。「要因:性別」の結果がまとめられています。


先ほどの年代には3つの水準があったため組み合わせも3つでした。これに対して性別の場合には2つ(女性と男性)しか水準がありませんので、組み合わせは1つだけになっています。


「調整p値」を見ると、.049となっており(ぎりぎりですが).05以下です。したがって、性別の効果は有意であると言えます。


右上の図を見ると、女性の値の方が大きいことが見て取れますので、ここまでの結果は女性と比べて男性の方が厳罰的であるとまとめることができます。


5.表の作成

ここまでで分析が終わりましたので、論文上で報告するための表を作成します。ここまでの分析をまとめたHADのファイルはこちらから、エクセルの表の見本はこちらからダウンロードできます。

ここまで行ってきたような分析の結果を報告する際には、記述統計の結果と分散分析の結果を報告する必要がありますが、これらは1つの表にまとめられます。また、自分で作った尺度(つまり先行研究がない尺度)を使っており因子分析を行った場合には、因子分析の結果も報告する必要があります。本データで使われているのは実際には因子分析をする必要のないデータですが、参考のために表を作成しておきます。分散分析の表の作り方はかなりややこしいので、最初に因子分析の表を示し(Table 1)、その後に分散分析の表について説明します(Table 2)。

表の効率的な作り方は人それぞれだと思いますので、見本を参考にしながらご自身で作成してください。以下ではHADの出力と表の対応のみを記載いたします。

因子分析

《表》


《HADの出力》


分散分析

2要因以上の分散分析の場合には、独立変数ごとの結果を行に分けてまとめることが多いと思いますので、これに沿って作成します。

《表》


《HADの出力》


変数が多い場合には表にまとめた方が見やすいですが、このぐらいの数であればわざわざ表にする必要はないかもしれません。また、ここでは独立変数の効果のみを表にしていますが、多重比較も表にまとめることもできます(ただ、変数が多い場合には全変数について表にまとめるのは冗長であるかもしれません)。多重比較の表については1要因の分散分析の場合と同じですので、こちらをご覧ください。

6.論文の記述

表が作成できたら最後に文章を記述します。以下はここまでの分析の結果の書き方の一例ですが、絶対的に正しい正解はありませんので、他の論文も参考にしながら自分なりの書き方を見つけてください。

変数の合成:因子分析の場合

厳罰傾向を測定する5項目について探索的因子分析を行った。まず固有値の減衰状況を確認したところ,2.59, 0.25, 0.16と,明確に1因子構造が示唆される結果であったため,1因子解を指定して分析を行った。その結果,Table 1に示される通り,すべての項目の因子負荷量は.40以上であった。そのため,全項目の平均値を算出し,以後の分析に使用した。

変数の合成:信頼性係数の場合

厳罰傾向を測定する5項目についてCronbachのα係数を算出したところ,その値はα = .92であり,十分な内的一貫性が確認された。そのため,全項目の平均値を算出し,以後の分析に使用した。

記述統計と分散分析

回答者の年代と性別を独立変数,厳罰傾向を従属変数とした3(年代: 若年層,中年層,高齢層)× 2(性別: 女性,男性)の2要因参加者間の分散分析を行った その結果,Table 2に示される通り,年代の効果(F(2, 774) = 5.44, p < .01, 偏η2 = 0.01, 95%CI [0.01, 0.03])と性別の効果(F(1, 774) = 4.14, p = .04, 偏η2 = 0.01, 95%CI [0.00, 0.02])はともに有意であった。 そこでそれぞれの独立変数について多重比較(Holm法)を行った。まず,年代については,若年層(M = 3.98, SE = 0.08)と中年層(M = 4.29, SE = 0.06)の間には有意差が見られた(t(774) = -2.99, p < .01, d = -.27, 95%CI [-.45, -.10])。また,若年層と高齢層(M = 4.29, SE = 0.07)の間にも有意差が見られた(t(774) = -2.81, p < .01, d = -.28, 95%CI [-.45, -.10])。他方,中年層と高齢層の間には有意差が見られなかった(t(774) = -0.03, p = .97, d = .00, 95%CI [-.18, .17])。次に,性別については,男性(M = 4.10, SE = 0.06)と比べて女性(M = 4.27, SE = 0.06)の方が得点が高いことが示された(t(774) = -1.97, p = .05, d = -.15, 95%CI [-.29, -.01])。

赤でハイライトした部分では、分析全体の枠組みが記述されています。ここでは要因(独立変数)は「年代」と「性別」の2つですので「2要因」になります。そして、「年代」には「若年層・中年層・高齢層」の3つのグループがあり、「性別」には「女性・男性」の2つグループがありますので、これらをまとめて「3 × 2」と表記しています。数字の後に水準の内訳(「若年層」など)を書く必要は必ずしもないかもしれませんが、確実に分かりやすくなると思いますので、書くことをお勧めします。各水準に含まれるデータは異なる回答者から得られたデータですので「参加者間」となります。

緑でハイライトした部分では、分散分析の結果が記述されており、どこかの水準間に差があるかが検討されています。書かれている数値は表に記述されているものと同じです。独立変数が2つありますので、それぞれについて記述する必要があります。

緑でハイライトした部分では、多重比較の結果が記述されています。「若年層」などの各水準の初出の箇所で記述統計(平均値と標準誤差)を記述して、記述統計とまとめています。また、組み合わせごとの比較の後には統計量(t値、p値など)をまとめています。こちらも2つの独立変数ごとに結果を記述する必要があります。なお、文中の統計量(t値やp値など)は下記画像の赤で囲った部分に記述されています(下の画像は年代に関するものですが、性別についても同様です)。


ページ上部に戻る