【統計学再入門④】データ分析の基本 ー現代の最強学問ー

前回までのリンク。

,


データ分析の基本についてみていきましょう!


内容は以下の通り。

  1. データを分析する前に考えること
  2. 標本を抽出する方法
  3. 度数分布表、ヒストグラム

1. データを分析する前に考えること

これはまあ書くまでもないことですが、分析の目的を決めることです。
企業で働いている方であれば、例えば何が売上の増加につながっているか知りたいとか。
  • 何を知りたいのか?
  • 目的達成に最適なデータは?
  • データをどのように集める?
これを考えないと分析が目的になってしまいます。

2. 標本を抽出する方法

少ない数の集団から正しい情報を得ようとするならば、その標本が母集団の代表となってなければいけません。



知りたいのはどうすれば、母集団と似た小規模な標本を抽出できるのかということですよね。
母集団を全て調べられないので、標本を取るのだから無理なのではないかと思われます。

統計学的に偏りなくデータを抽出するための方法が「無作為抽出」というものです。
言葉の通りランダムに母集団からデータを取る方法です。

しっかりとランダムに抽出すればその標本は母集団と似た集団になることが数学的にわかっています。

人間がランダムに取るのはほぼ不可能(必ず何かしらのバイアスがかかる)なので、手でやる場合は乱数表というのを用いて抽出します。

特に無作為抽出の中でも、同じデータを何度も抽出する方法を復元抽出、同じデータは抽出しない方法を非復元抽出と言います。
有限母集団から復元抽出すると、無限母集団からの標本抽出に近い標本が得られることがわかっています。




3. 度数分布表、ヒストグラム

これはみたことや実際に作成したことがあるのではないかと思います。
  • 度数分布表:データを階級に分けて要約した表
  • ヒストグラム:度数分布表の棒グラフ


これらからわかるのは以下のようなもの。
  • データの大体の中心
  • データの範囲
  • 分布の形
  • ピークの数
  • 異常値の有無
度数分布表の作成の仕方はシンプルです。
  • 最大値と最小値を見つけ分布の幅を計算
  • 階級の間隔を決める
  • データを分類し表にする

これでデータ分析の準備が整いました。
次回はよく聞いたことがある、平均値などの統計量についてみていきましょう!


コメント