【統計学再入門⑤】データを数値で要約する

前回までのリンク。

,


データの特徴を理解するためによく計算される数値があります。

今回話していくのは以下の内容です。


  1. 統計量とは何か
  2. 中心的傾向を表す統計量
  3. 変動を表す統計量

統計量とは何か

何やら難しそうな言葉ですが、データを1つの値に要約したものを統計量と言います。


統計量は数値なのでデータ間の厳密な比較を可能にします。
よく使用される統計量は2種類に分けられます。

  1. 中心的傾向を表す統計量(どこを中心に分布しているのか)
  2. 変動を表す統計量(どの程度ばらつきがあるか)

一つずつ見ていきましょう!

中心的傾向を表す統計量

代表的なのは以下の3つです。
  • 平均値:分布の重心を表す
  • 中央値:分布をちょうど2等分する
  • 最頻値:最も多く現れる値

そのほか特徴として
  • 平均は外れ値の影響を受けやすい
  • 中央値、最頻値は外れ値の影響を受けない
というのがあります。

変動を表す統計量

これも代表的なのは3つです。
  • 分散:偏差の2乗を合計しデータ数で割ったもの
  • 標準偏差:分散にルートをかけたもの
  • 変動係数:標準偏差が平均の何倍かを示す

偏差は個々のデータが平均値からどれだけ離れているかを表す数字です。

偏差を見ればこのデータが平均からどれだけばらつきがあるのかはわかります。
しかし、偏差を平均しようとすると0になります。
なので偏差を2乗して平均を取ることで分散はばらつきを表している。



2乗してしまうと単位が変わってしまいます。(cmがcm^2になるみたいな)
なのでルートをかけることで単位を戻したものが標準偏差になります。



平均が同じような値の場合に標準偏差は役立ちますが、大幅に違う時にはまた違う統計量が必要になります。

標準偏差が500でも平均が1000と10000だったら、全然意味合いが違ってきますよね。
平均値の大小に関わらず変動を表すことができるのが変動係数というものです。





次回は確率についてみていきましょう!

コメント