Rを使った正規分布関連の覚書。
正規分布 (normal distribution) とは
正規分布とは、平均値と最頻値・中央値が一致し、それを軸として左右対称となっている確率分布。
多くの統計的手法において、データが正規分布に従うことを仮定している。
- 正規分布の特徴
- 紡錘形
- 左右対称
- 平均値と中央値が中央で一致している
- 「平均」と「分散」が重要
- 正規分布の68-95-99ルール
- 約68%のデータは±1SD以内
- 約95%のデータは±2SD以内
- 約99%のデータは±3SD以内
以下は、偏差値 (0点から100点のテスト、平均 50、標準偏差10)の正規分布▼
描き方は、
curve(dnorm(x, mean = ○○, sd = ○○), from = ○○, to = ○○)
で。
# 0点から100点のテスト、平均50、標準偏差10の偏差値のグラフ
curve(dnorm(x, mean = 50, sd = 10), from = 0, to = 100)
rnorm:正規分布の無作為抽出
rnormは、正規分布からランダムに値を抽出する。
例えば、平均値50で標準偏差が10の正規分布から5個の数字を無作為に抽出する場合。
# 平均値50で標準偏差が10の正規分布から5個の数字を無作為に抽出
rnorm(5, mean = 50, sd = 10)
output
> rnorm(5, mean = 50, sd = 10)
[1] 46.16207 48.85408 62.08255 54.45694 27.53638
平均値と標準偏差を指定しない場合は、-1 から 1 の正規分布 (標準正規分布: 平均 = 0, 標準偏差 = 1)になる。
# 平均値50で標準偏差が10の正規分布から5個の数字を無作為に抽出
rnorm(5)
output
> rnorm(5)
[1] -0.46152128 1.33902697 -0.37063174 -0.03551792 0.45226065
dnorm:正規分布の確率密度関数
以下、偏差値 (平均値50、標準偏差10)を使って検証。
例えば偏差値70の人の確率密度関数は、
# 偏差値70の人の確率密度関数
dnorm(70, mean = 50, sd = 10)
output
> dnorm(70, mean = 50, sd = 10)
[1] 0.005399097
pnorm:正規分布の累積分布関数
pnormは、正規分布における任意の値以下(または以上)の確率を求める。
例えば、偏差値70以下の人がいる確率は、
# 偏差値70以下の人がいる確率
pnorm(70, mean = 50, sd = 10)
output
> pnorm(70, mean = 50, sd = 10)
[1] 0.9772499
「~97.7%人は偏差値70以下」という結果が得られた。
pnormのデフォルトは "lower.tail = TRUE" なので、"○○以下" を求める事になる。
"○○以上" を求めたい場合は、"lower.tail = FALSE" にする。
# 偏差値70以上の人がいる確率
pnorm(70, mean = 50, sd = 10, lower.tail = FALSE)
output
> pnorm(70, mean = 50, sd = 10, lower.tail = FALSE)
[1] 0.02275013
「~2.3%人は偏差値70以上」という結果が得られた。
qnorm:パーセンタイル値
qnorm は pnorm の逆バージョン。
正規分布の確率を使って、パーセンタイル値を求める。
# 0.9772499の確率の人たちは偏差値いくら以下?
qnorm(.9772499, mean = 50, sd = 10)
output
> qnorm(.9772499, mean = 50, sd = 10)
[1] 70.00001
偏差値70以下の人たちが97.7%、という結果が得られた。
References
Rを使った正規分布とdnorm, pnorm, qnorm, rnorm関数を初心者の方でもわかりやすく解説します。例題や図を使って計算方法やRの使い方・グラフの書き方などを解説しています。医療統計を中心に、Rと医療統計についてのサイトです。
統計学を学んでいてRでシミュレーションをしたくなったある日のこと、確率密度関数の使い方がよく分からず困った.... 今回は、確率密度関数の使い方を正規分布を例にまとめてみます!! 正規分布の確率密度 Rの確率密度関数を調べてみると、 rnorm dnorm pnorm qnorm があるようです。 最初の1文字が違うだけで、何が違うんだ!と私は思ったので、一つずつ検証してみました。 まずはdnromから まずはdnormから試してみます。 helpをみると第一引数にquantiles、第二引数にmean、第三引数にsdとあります。第一引数がよく分かりませんが、とりあえず平均0、分散1の標準正規…
高校受験や大学受験の際に「偏差値」を基準にすることが多いですが、偏差値はどんな数値なのか説明できますか?偏差値とは何か・求め方・注意点を解説していきます。志望校の偏差値を見る際に参考にしてください。
正規分布について、基本的な概念と、Rによる取り扱い方法(描画・乱数)、及び打率とHRを道板具体例についてご紹介します。