Rでsummary関数、sd関数、var関数の実施
前回に読み込んだデータの集計を求めます。
> summary(body.data) id gender height weight Min. : 1.00 Length:30 Min. :137.0 Min. :29.00 1st Qu.: 8.25 Class :character 1st Qu.:142.5 1st Qu.:33.25 Median :15.50 Mode :character Median :149.0 Median :38.00 Mean :15.50 Mean :149.0 Mean :38.70 3rd Qu.:22.75 3rd Qu.:155.2 3rd Qu.:43.75 Max. :30.00 Max. :161.0 Max. :49.00
上記のコマンドを実行することで各列について集計関数が実行されます。
Min.は最小値、1st Qu.は順番に並べた時の上位25パーセント、Medianは順番に並べた時の中央値、Meanは平均値。
なお、genderカラムについてはFかMなので、集会関数は実施されません。また、genderカラムには「連続変数」から「カテゴリ変数」への変換処理が必要になります。
> body.data$gender = factor(body.data$gender) > summary(body.data) id gender height weight Min. : 1.00 F: 7 Min. :137.0 Min. :29.00 1st Qu.: 8.25 M:23 1st Qu.:142.5 1st Qu.:33.25 Median :15.50 Median :149.0 Median :38.00 Mean :15.50 Mean :149.0 Mean :38.70 3rd Qu.:22.75 3rd Qu.:155.2 3rd Qu.:43.75 Max. :30.00 Max. :161.0 Max. :49.00
上記は、genderカラムに「連続変数」から「カテゴリ変数」への変換処理を実施した後に、
集計関数を実施したものです。結果が変わっています。genderカラムがFのレコード、Mのレコードの数が表示されます。
> sd(body.data$height) [1] 7.315548 > > > var(body.data$weight) [1] 41.73448 >
上記では身長の標準偏差と不編分散を求めています。
ちなみに、標準偏差とは対象のばらつきの度合いを表します。
不編分散も対象のばらつきの度合いを表します。