分散を計算する方法

2 方法:標本分散の計算母分散の計算

分散とは、データセットの散らばり具合を示す値のことです。統計モデルを作成する際に分散はとても重要です。分散の値が低ければ、入力したデータがみなさんの統計モデルに過剰適合している可能性があります。[1] それでは、さっそく分散の計算方法についてご説明しましょう。

1
標本分散の計算

  1. 1
    サンプルのデータセット(項目と数値)を書き出しましょう。ほとんどの場合、統計学者はサンプル(標本)、または研究対象となる母集団の一部からデータを収集します。例えば、ドイツ国内の自動車の価格を調べる場合、ドイツ国内のすべての自動車を当たるわけではなく、その中から無作為に数千の自動車を抽出します。抽出したサンプルの価格を調べることによって、おおよそのドイツ車の価格が推定できます。しかし、厳密には実際の価格と一致しているわけではありません。
    • 例: とある喫茶店の1日当たりのマフィンの売り上げ数を調べたとします。みなさんがサンプルとして選んだ6日間の売り上げ数がそれぞれ17, 15, 23, 7, 9, 13だった場合、それらの数値はあくまでもサンプル(標本)であって、総数(母集団)ではありません。すべての開店日のデータが手元にない限り、マフィンの厳密な売り上げ数を知る術はありません。
    • 母集団のすべてのデータポイントが手元にある場合は、次章の「母分散の計算」に進みましょう。
  2. 2
    標本分散の公式を書き出しましょう。データセットの分散は、データポイント同士がどの程度離れているかを示します。分散の値がゼロに近いほどデータポイントが一か所に固まっていることが分かります。サンプルのデータセットを分析する際は、以下の公式に従って分散を算出します。[2]
    • = ∑[( - x̅)]/(n - 1) が標本分散の公式です。
    • が分散です。分散は常に2乗単位で算出します。
    • は各データセットの値を表します。上記のマフィンの売り上げ数を例にとると、サンプルとして選んだ1日毎の売り上げ数(17, 15, 23, 7, 9, 13)が各データセットの値になります。
    • ∑は総和を表します。データセット()毎に以下の値の計算を行い、算出した数値を足し合わせます。
      • 平均値からの偏差: - x̅
      • 偏差の2乗:( - x̅)
    • x̅ はサンプルの平均値(標本平均)を表します。
    • n はデータポイント数、またはサンプルの大きさを表します。上記のマフィンの売り上げ数を例にとると、データポイント数(サンプル数)は6になります。
  3. 3
    サンプルの平均値を計算します。サンプルの平均値(標本平均)はx̅ という記号で表します。[3] 普段通りの方法で平均を求めましょう。すなわち、すべてのデータポイントを足し合わせ、データポイント数で割ります。
    • 例: まずは、データポイントを足し合わせます。17 + 15 + 23 + 7 + 9 + 13 = 84となります。つぎに、算出した数値をデータポイント数で割ります。この場合、84 ÷ 6 = 14となります。すなわち、サンプルの平均値= x̅ = 14です。
    • 平均値はデータの“中間点”と考えることができます。データが平均値の前後に密集していれば、分散の値は低くなります。一方、データが平均値から離れて散らばっていれば、分散の値は高くなります。
  4. 4
    つぎに、各データポイントから平均値を引きます。 - x̅ を計算します。 は、各データセットの値です。これで平均値からの偏差を算出できます。すなわち、それぞれのデータポイントが平均値からどのくらい離れているかが分かります。[4]
    • 例:
      - x̅ = 17 - 14 = 3
      - x̅ = 15 - 14 = 1
      - x̅ = 23 - 14 = 9
      - x̅ = 7 - 14 = -7
      - x̅ = 9 - 14 = -5
      - x̅ = 13 - 14 = -1
    • 正確に計算ができていることを確認するために、すべての答えを足してゼロになるかを見てみましょう。平均値の特性によって負数(データポイントが平均値を下回る場合)と正数(データポイントが平均値を上回る場合)は互いに打ち消し合うため、正確に計算ができていれば、各数値の合計は必ずゼロになります。
      • 例:3+1+9+(-7)+(-5)+(-1)= 0
  5. 5
    各数値を2乗します。上記のように、算出した偏差( - x̅)をすべて足し合わせるとゼロになります。したがって、「偏差の平均値」もゼロになってしまいます。このままでは、データにどの程度のばらつきがあるかを調べることはできません。この問題を解決するために、各偏差の2乗の値を求めます。これですべての値が正数となるため、正負の数が相殺されてゼロになる心配はありません。[5]
    • 例:
      ( - x̅)
      - x̅)
      92 = 81
      (-7)2 = 49
      (-5)2 = 25
      (-1)2 = 1
    • 以上、( - x̅)の計算式に従い、サンプル内の各データポイントの偏差と、偏差の2乗をすべて算出することができました。
  6. 6
    2乗した値の総和を求めます。引き続き、公式の分子全体の値を求めます。すなわち、∑[( - x̅)]の部分です。大文字のシグマ記号∑は、右側にある毎に算出した値の総和を表します。みなさんはすでに毎に( - x̅)の値を算出しています。あとは、それらの数値を足し合わせるだけです。
    • 例: 9 + 1 + 81 + 49 + 25 + 1 = 166
  7. 7
    最後に、算出した2乗和をn – 1で割ります。n はデータポイント数を表します。かつては、標本分散を計算する際には単にnで2乗和を割っていました。そうすれば正確に、2乗した偏差の平均値=標本分散、となります。しかし、サンプルはあくまでも母集団の推定値に過ぎません。もう一度母集団から無作為にサンプルを抽出し、同じ計算を行えば、まったく異なる結果が出ます。結論からいえば、2乗和をn ではなくn – 1で割ることによって、さらに正確に母集団の分散(母分散)を推定することができます。サンプル調査の第一の目的は、できる限り正確に母集団の特性を推定することです。このような補正は、現在では標本分散の算出に不可欠な手法として広く受け入れられています。[6]
    • 例: このサンプル内には6個のデータポイントがあるため、n = 6となります。
      したがって、標本分散 = 33.2となります。
  8. 8
    分散とともに標準偏差も理解しておきましょう。これまで見たとおり、分散の計算には指数(べき乗)を使います。すなわち、分散は元のデータを2乗単位に換算したうえで算出した値です。単位の異なる数値は一見しただけでは分かりにくいものです。そこで分散の代わりに、しばしば「標準偏差」という単位が用いられます。といっても、新たに計算し直す必要はありません。標準偏差は分散の正の平方根として求めることができます。公式にあるように標本分散はで表しますが、標準偏差はで表します。
    • 上記のサンプルを例にとると、標準偏差= s = √33.2 = 5.76となります。

2
母分散の計算

  1. 1
    母集団のデータセットを用意しましょう。母集団とは、調査対象となる集団全体のことです。例えば、テキサスの住民の年齢を調べる場合、テキサスに居住するすべての人の年齢が母集団になります。国勢調査を始め、大規模な統計調査を行う場合には本格的な集計表を作成する必要がありますが、ここではもっと規模の小さなデータセットを例にとってご説明しましょう。
    • 例: 部屋に6つの水槽があるとします。それぞれの水槽()には以下の数の魚が入っています。





  2. 2
    母分散の公式を書き出しましょう。みなさんの手元には母集団のすべてのデータがあるため、以下の計算によって正確に母集団の分散を算出できます。標本分散(母分散の推定値に過ぎません)と区別するために、母分散の公式では、いくつか異なる変数を用います。[7]
    • σ = (∑( - μ))/n が母分散の公式です。
    • σ = 母分散: 小文字のシグマを2乗した記号が母分散です。分散は2乗単位で計算します。
    • は各データセットの値を表します。
    • ∑内でデータセット()毎に計算を行い、算出した各数値の総和を求めます。
    • μ は母集団の平均値(母平均)を表します。
    • n は母集団のデータポイント数を表します。
  3. 3
    母集団の平均値を求めます。母集団を調査する場合のμ(ミュー)という記号は算術平均を表します。データポイントをすべて足し合わせた数値をデータポイント数で割って平均値を求めます。
    • ここでいう平均値とは、ごく一般的な算術平均のことですが、数学の世界では様々な種類の平均があるため注意が必要です。
    • 例: 平均値 = μ = = 10.5
  4. 4
    各データポイントから平均値を引きます。データポイントが平均値に近いほど、答えはゼロに近くなります。それぞれのデータポイントで引き算を続けるうちに、データにどの程度のばらつきがあるかが少しずつ見えてくるでしょう。
    • 例:
      - μ = 5 - 10.5 = -5.5
      - μ = 5 - 10.5 = -5.5
      - μ = 8 - 10.5 = -2.5
      - μ = 12 - 10.5 = 1.5
      - μ = 15 - 10.5 = 4.5
      - μ = 18 - 10.5 = 7.5
  5. 5
    各数値を2乗します。上記の計算で得た数値には正数(プラス)と負数(マイナス)があります。数値を順番に並べれば、平均値の左側と右側のカテゴリーに分かれます。このままでは、両側の数字が互いに打ち消し合うため、分散の計算には役に立ちません。そのため、それぞれの数字を2乗して、すべての値を正数にします。
    • 例:
      ( - μ) の計算式に従って1~6までのデータポイントの値を求めます。
      (-5.5) = 30.25
      (-5.5) = 30.25
      (-2.5) = 6.25
      (1.5) = 2.25
      (4.5) = 20.25
      (7.5) = 56.25
  6. 6
    2乗した各数値の平均を求めます。すべてのデータポイントの値を算出したみなさんは、たとえ間接的な形であっても、それぞれのデータポイントが平均値からどの程度離れているかがお分かりでしょう。最後に、各数値を足し合わせ、データポイント数(n)で割って、2乗した偏差の平均値を求めます。
    • 例:
      母分散 = 24.25
  7. 7
    もう一度公式に当てはめてみましょう。この計算が本章の冒頭で紹介した公式にどのように当てはまるかを再確認するために、すべての計算式を書き出してみましょう。
    • 平均値からの偏差を求め、2乗した後、みなさんの手元には、( - μ), ( - μ)… ( - μ)までの数値があります。はデータセット内で最後に来るデータポイントを表します。
    • これらの数値の平均を求めるために、各数値を足し合わせてnで割ります。
      ( ( - μ) + ( - μ) + ... + ( - μ) ) / n
    • 改めてシグマ内の分子を書き出してみましょう。上記の除数nを分母にすれば、分散の公式(∑( - μ))/nが出来上がります。

ポイント

  • 分散の値は解釈しにくいため、通常は標準偏差を算出するための第一段階として利用されます。
  • サンプルを分析する際に分母に"n" ではなく"n-1"を使う手法は、「ベッセルの修正」と呼ばれます。サンプルは、サイズの大小にかかわらず、母集団の一部に過ぎません。そのため、何度サンプルの抽出を繰り返しても、母平均の推定値である標本平均には偏りが生じます。偏りがあれば、おのずと偏差の2乗和は低い値で算出されます。この偏りを取り除くのがベッセルの修正です。[8]これには以下の数学的事実が関係しています。標本平均を使って分散を求める場合、n-1個のデータポイントはどのような値を取ることもできますが、最後のn番目の値だけは、他のデータポイントの値と標本平均(x̅)によって自動的に決まります(偏差の合計が必ずゼロになることを思い出しましょう)。つまり、n番目のデータポイントは、もはやサンプルではなく、標本平均を算出するために強制的に放り込まれた数値と考えることができるのです。[9]


記事の情報

カテゴリ: 数学

他言語版:

English: Calculate Variance, Español: calcular la varianza, Italiano: Calcolare la Varianza, Deutsch: Varianz berechnen, Français: calculer la variance, Русский: посчитать дисперсию случайной величины, 中文: 计算方差, Português: Calcular a Variância, Nederlands: Variantie berekenen, Bahasa Indonesia: Menghitung Variasi

このページは 643 回アクセスされました。

この記事は役に立ちましたか?