掲題の本を読んだ際のメモを以下に列挙していく。
■1章:情報の見える化について
- ヒストグラムの注意点
- ヒストグラムの棒グラフの面積は度数に比例していないといけない。
- グループ分けされた間隔が一定でない場合には、グラフの縦軸を度数密度(=度数/グループの幅)で示さないと、間違った情報を伝えてしまうなど、注意が必要。
- 累積度数という統計用語:ある値の累積度数とはその値以下の度数の合計。
■2章:主要な傾向を測る
- 「平均(average)」にもいろいろある。
- 算術平均(mean)
- 中央値(median)
- 最頻値(mode)
- 算術平均・・・いわゆる小学校で学ぶ平均。(μで示すことが多いらしい。)
- 外れ値(極端に全体の傾向から離れている値)があり、データに歪みが生じている場合に、算術平均は典型的な値を示さなくなる。
- データに存在しない値が算術平均になる場合がある。
- メジアン・・・全てのデータの値を昇順(または降順)に並べたときに中央にくる値。
- 同じ値のデータが複数ある場合には、存在する数だけ並べることに注意。
- データ総数が偶数の場合は、中央の値が無いので、最も中央寄りの2つの値の平均がメジアンとなる。(この場合は、データに存在しない値がメジアンになる。)
- 最頻値・・・最も度数が大きい値。(複数ある場合は、複数の最頻値となる。)
- 算術平均やメジアンと異なり、絶対にデータ習合に存在する値となる必要がある。
- カテゴリーデータでも使える。
- 最頻値が多数ある場合は、最頻値に意味がなくなる(役立たなくなる)。
■3章:ばらつきと広がりを調べる。
- 広がり
- 「範囲」という尺度・・・単純にMAX値-MIN値
- 外れ値があると大きく影響を受ける。
- 外れ値を除外したい。⇒一貫性のある方法はないか?→「四分位範囲」
- 「四分位範囲」という尺度・・・(ざっくりいえば)データを大きさ順に4つのグループに分け、最も大きいグループと、最も小さいグループを除外して、「範囲」を求める。
- 箱ひげ図という可視化方法・・・広がりを上手く可視化する方法。
- ばらつき
- ばらつきを示す上手い尺度はないか?
- データの中の各値と、データ全体の算術平均からの距離の平均をとれば、ばらつき度合いの尺度にできるのではないか?
- でも、単純に算術平均の差(=距離)を足し合わせると差(=距離)の平均はゼロになる。
- じゃー、算術平均の差(=距離)の2乗の平均をとればいいのでは?という発想。
- 【疑問】差でなく距離なのだから差の絶対値の平均をとればいいと思うのだが、そうしない理由はなんだろう・・・
- 以上の発想で分散(Variance)という量が定義される。
- 距離の2乗の平均は、あまり直感的でないので、この分散の平方根をとる。これが標準偏差
- 標準得点という発想
■4章:確率
- 条件付き確率とベイズの定理
- 条件付き確率を見える化する場合、「確率木」で表現すると便利。
- 条件付き確率とベイズの定理は、以下のとおり。
- 独立
- 2つの事象AとBが独立である場合、P(A|B)=P(A)が成り立つ。
- 逆に、この式(P(A|B)=P(A))が成り立つ場合、AとBは独立といえる。
0 件のコメント:
コメントを投稿