平均値を述べるときはバラつきを述べる必要があるという話を前々回しました。
6人の数値が①[6, 6, 6, 6, 6, 6]である場合と②[1, 2, 3, 9, 10, 11]である場合、平均値は同じ6ですが、①では全くバラつきがないのに対して②ではかなりばらついていますね。
それを平均値という同じ物差しのみで表現してしまうと、①と②の違いが分かりませんので、バラつきの指標である標準偏差(SD)を用いて、「平均値±標準偏差(SD)」の表現でよく表します。
前々回計算しましたが、①の場合は6±0、②の場合は6±4.08となります。
論文を読んでいると、標準偏差(SD)ではなく、標準誤差(SE)が示され、「平均値±標準誤差(SE)」となっていることがありますが、何が違うのでしょうか?
標準誤差(SE)は標準偏差(SD)に比べて値が必ず小さくなります。
なぜかというと、SDを「√サンプル数」で割った値だからです。
サンプル数とは、上の①②の場合、6人の値ですので、サンプル数は6となります。
計算してみますと、
①の場合:標準誤差(SE)=0÷(√6)=0
②の場合:標準誤差(SE)=4.08÷(√6)=1.67
よって、平均値±標準誤差は、
①の場合:6±0
②の場合:6±1.67
となります。
標準誤差(SE)=標準偏差(SD)÷(√サンプル数)
このように、標準誤差は標準偏差より小さい数値となるため、グラフなど掲載する際、バラつきを小さく見せるために標準誤差を使いたがる方もよくおります。
しかし、標準誤差というのはバラつきを小さくみせるための値ではありません。
このことについて、少し説明します。
結論から言うと、
標準偏差(SD)はサンプル内のバラつきを示した値
標準誤差(SE)は平均値のバラつきを示した値
です。
これだけだと分からないですので、例を挙げて説明します。
例えばケーキバイキングに20人で行ったとします。
そのとき、食べたケーキの数は人によってばらつきがでますね。
5個しか食べられなかった人もひれば、20個も食べた人もいるかもしれません。
20人の個数が以下のようになったとしましょう。
[5, 7, 8, 8, 9, 9, 9, 10, 10, 10, 11, 11, 11, 12, 12, 13, 13, 14, 16, 20]
ケーキを食べた個数の平均値は、
平均値=(5+7+8+8+9+9+9+10+10+10+11+11+11+12+12+13+13+14+16+20)÷20=218÷20=10.9個となります。
標準偏差は20サンプルもあるので計算が大変ですが、以下のように算出します。
分散={(各人の個数-平均値)2を人数分合計}÷20=10.49
標準偏差=√(分散)=3.24
よって、食べたケーキの数の平均値±標準偏差は10.9±3.24個となります。
この3.24はサンプル内(20人)でのケーキ数のバラつきを表しています。
ここまではよろしいですね?
ここから標準誤差について説明していきます。
●標準誤差(SE)とは?
標準誤差は標準偏差を(√サンプル数)割れば算出できるので、
上記の場合、3.24÷(√20)=0.72
となります。
それでは、この値は何を意味しているのでしょうか?
例えば、上記の平均値は10.9個でしたが、別の20人の平均値は14個であったり、7個であったりと、20人の集め方によって平均値にバラつきがでてきそうです。
この平均値がどの程度ばらつくかを示したのが標準誤差(SE)となります。
標準偏差を(√サンプル数)で割ったものが標準誤差ですので、サンプル数が多くなれば多くなるほど標準誤差は小さくなります。
これを簡単に説明しますと、日本人(約1億人)がケーキバイキングで食べた個数の平均値を求めたいとします。
1億人について調べるのは困難というか、そんなことは通常できませんので、人数を限定して調べてみることになります。
例えば東京の20人、大阪の20人、京都の20人といったように、各箇所から代表となる20人を選出して調べてみることになることになります。
そうすると東京、大阪、京都などの各箇所で平均値は異なってきます。
たまたま東京の20人が大食いの人の集まりであれば極端に平均値が大きくなりますし、京都の20人が小食の人に集まりであれば極端に平均値が小さくなりますよね。
ここで、各箇所で人数を極端に増やし、東京の10000人、大阪の10000人、京都の10000人について調べてみたらどうでしょうか?
人数を増やした分、平均値に差がでにくくなることが予想されます。
そして、サンプル数が1億人に近くなればなるほど、平均値の誤差は小さくなります。
このように、平均値の誤差はサンプル数が多くなれば多くなるほど小さくなるのです。
ということで、標準誤差(SE)は求めた平均値にどれくらいバラつきがあるのかを表したものということになります。
もう少し簡単に言うと、求めた平均値の精度を示しているともいえるかと思います。
まとめますと、
標準偏差(SD)はサンプル内のバラつきを示した値
標準誤差(SE)は平均値のバラつきを示した値
ですので、標準偏差と標準誤差は全くことなるものということで、標準誤差はグラフなどのばらつきを小さくみせるためのものではありません!
(気持ちは分かりますが)
再度、SDとSEの関係式を示しておきます。
標準誤差(SE)=標準偏差(SD)÷(√サンプル数)
なお、サンプル数はnと書くことが多いです。
いかがでしたでしょうか?
3回にわたり数値について説明してみました。
<Sponsered Link>