※申し訳ございませんが、前半の説明に間違いがございましたので、修正させていただきました。(2018年11月7日)
前回は平均値と標準偏差、中央値と最小値/最大値について説明しました。
今回はこの続きで、四分位(中央値に関連)の話をしていきます。
(長くなるので、標準誤差の話は次回に回します)
●四分位とは?
論文でQ1、Q3などと表記される数値が四分位に関する数値です。
とりあえず、見ていただいた方が早いので、11個の数値で説明します。
小さい順に並べると、[1, 3, 6, 8, 10, 13, 14, 15, 18, 20, 25]となる数値11個があったとき、
中央値はちょうど真ん中の数値なので、6番目の13ですね。
(左から数えても6番目、右から数えても6番目)
ちなみに最小値は1、最大値は25なので、
中央値(最小値, 最大値)=13(1, 25)
と表記できます。
四分位範囲はこの情報をもっと細かくわけたもので、
中央値の数値を境にしてさらに半分にわけます。
まず左側、[1, 3, 6, 8, 10]の中央にくる数値は6です。
この数値がQ1(第1四分位)となります。
次に右側、[14, 15, 18, 20, 25]の真ん中の数値は18です。
この数値がQ3(第3四分位)となります。
Q2(第2四分位)というのはないのか?については、中央値がQ2となります。
Q1、Q2、Q3という仕切りで、数値を4つの部屋に分けられるので、「四分位」といいます。
ここまでまとめると、[1, 3, 6, 8, 10, 13, 14, 15, 18, 20, 25]について、
最小値=1
Q1=6
中央値=Q2=13
Q3=18
最大値=25
となります。
また、四分位範囲(IQR)という数値がでてきますが、これはQ3-Q1のことで、今回の場合は
IQR=18-6=12となります。
これらをグラフで図示する際、箱ひげ図というグラフを用います。
上記の例では数値の数が奇数個でしたが、偶数個の場合はどうでしょうか?
14個の数値、[3, 8, 10, 25, 38, 39, 45, 53, 59, 62, 66, 72, 88, 99]についてみていきます。
偶数個の場合、中央にくる数値は2つありましたね。
7番目と8番目の数、45と53が中央にくる数値なので、これを2で割ったものが中央値です。
中央値=(45+53)÷2=49
それでは、Q1とQ3はどうなりますでしょうか?
まず左側、[3, 8, 10, 25, 38, 39, 45]
3~45の真ん中にくるのがQ1なので、この場合はQ1=25となります。
次に右側、[53, 59, 62, 66, 72, 88, 99]
53~99の真ん中にくるのがQ3なので、この場合はQ3=66となります。
まとめると、[3, 8, 10, 25, 38, 39, 45, 53, 59, 62, 66, 72, 88, 99]について、
最小値=3
Q1=25
中央値=Q2=(45+53)÷2=49
Q3=66
最大値=99
四分位範囲(IQR)=Q3-Q1=66-25=41
となります。
いかがでしたでしょうか?
算出できなくても、数値がどのようなことを意味しているのかだけ分かっていればOKです。
次回は標準誤差の話をします。
<Sponsered Link>