メモっていると便利

日々学んだことを綴っていきます。

Rでsummary関数、sd関数、var関数の実施

前回に読み込んだデータの集計を求めます。

> summary(body.data)
       id           gender              height          weight     
 Min.   : 1.00   Length:30          Min.   :137.0   Min.   :29.00  
 1st Qu.: 8.25   Class :character   1st Qu.:142.5   1st Qu.:33.25  
 Median :15.50   Mode  :character   Median :149.0   Median :38.00  
 Mean   :15.50                      Mean   :149.0   Mean   :38.70  
 3rd Qu.:22.75                      3rd Qu.:155.2   3rd Qu.:43.75  
 Max.   :30.00                      Max.   :161.0   Max.   :49.00  


上記のコマンドを実行することで各列について集計関数が実行されます。
Min.は最小値、1st Qu.は順番に並べた時の上位25パーセント、Medianは順番に並べた時の中央値、Meanは平均値。

なお、genderカラムについてはFかMなので、集会関数は実施されません。また、genderカラムには「連続変数」から「カテゴリ変数」への変換処理が必要になります。

> body.data$gender = factor(body.data$gender)
> summary(body.data)
       id        gender     height          weight     
 Min.   : 1.00   F: 7   Min.   :137.0   Min.   :29.00  
 1st Qu.: 8.25   M:23   1st Qu.:142.5   1st Qu.:33.25  
 Median :15.50          Median :149.0   Median :38.00  
 Mean   :15.50          Mean   :149.0   Mean   :38.70  
 3rd Qu.:22.75          3rd Qu.:155.2   3rd Qu.:43.75  
 Max.   :30.00          Max.   :161.0   Max.   :49.00  

上記は、genderカラムに「連続変数」から「カテゴリ変数」への変換処理を実施した後に、
集計関数を実施したものです。結果が変わっています。genderカラムがFのレコード、Mのレコードの数が表示されます。

> sd(body.data$height)
[1] 7.315548
> 
> 
> var(body.data$weight)
[1] 41.73448
> 

上記では身長の標準偏差と不編分散を求めています。

ちなみに、標準偏差とは対象のばらつきの度合いを表します。

不編分散も対象のばらつきの度合いを表します。