「新米探偵、データ分析に挑む」を読んで
R言語を利用したデータ分析について知りたくなったため、「新米探偵、データ分析に挑む」という本を購入し、読んでみました。
この本は、実際に相手の相談内容をデータを用いて解決していくという物語形式となっているが、内容が濃く、わかりやすい文章のためすんなり読み込めました。データ分析の概要を知るだけなら良書だと思います。
Rがどんなのかを知るためには、本に乗っているソースを手で動かして結果を確認する方が理解が早いので、手で動かすのをおすすめします。
Rの基本的な関数のまとめ
R言語は、統計解析向けのプログラミング言語でオープンソースとなっています。Pythonもデータ分析ができますが、R言語でざっくりとデータ分析を行うために最低限必要な関数をまとめたものです。
sum関数
1から100までの和を集計
1 |
sum(1:100) |
sample関数
1から100のどれかをランダムで出す
1 |
sample(1:100,1) |
1から100のどれかをランダムで出すのと100回繰り返す(同じ数字が何度も出てもよい:replace)
1 |
sample(1:100,100,replace = TRUE) |
table関数
1から100のどれかをランダムで出すのと100回繰り返し、度数分布表を作成する
1 |
table(sample(1:100,100,replace = TRUE)) |
hist関数
1から100のどれかをランダムで出すのと1000回繰り返し、ヒストグラムを作成する(breaksは区間)
1 |
hist(sample(1:100,1000,replace = TRUE),breaks = 0:100) |
mean関数
1から100のどれかをランダムで出すのと100回繰り返し、平均値を集計する
1 |
mean(sample(1:100,1000,replace = TRUE)) |
ダイアログを開いてcsvファイルを読み込む関数
1 |
データの名前 <- read.csv(file.choose()) |
標準偏差を求める関数
1 |
sd(データの名前$列名) |
平均値の差の検定
1 |
t.test(データの名前$列名,mu=母平均) |
p-valueが有意水準(例えば5%)以上であれば、帰無仮説は保留される。
p-valueが有意水準(例えば5%)以下であれば、帰無仮説は棄却され、対立仮説となる。
帰無仮説・・・標本の平均値と母集団の平均値との差は誤差に過ぎない。すなわち差はない。
対立仮説・・・標本の平均値と母集団の平均値との差は誤差では済まされない差がある。
カイ二乗検定
1 |
chisq.test(データの名前) |
p-valueが有意水準(例えば5%)以下であれば、帰無仮説は棄却され、対立仮説となる。