R logo

データをインポートしたらまず始めにする作業。

今回は、同じ階層にある"my_Data"というエクセルファイルをインポート

library(readxl)
Data_C <- readxl::read_xlsx("../my_Data.xlsx")

 

str()でデータの中身を確認する。

str(Data_C)
output
tibble [1,052 × 191] (S3: tbl_df/tbl/data.frame)
$ ID : num [1:1052] 101493 116342 116322 109018 ...
$ Cohort : chr [1:1052] "AD+LBD" "LBD" "AD" "AD+LBD" ...
$ LBDSubtype : chr [1:1052] "No Lewy pathology", "Brain stem predominant", "Limbic or Transitional",...
$ Sex : num [1:1052] 1 1 2 1 1 1 1 2 1 1 ...
$ Age : num [1:1052] 83 78 75 74 78 74 81 67 87 84 ...
$ AgeOnset : chr [1:1052] "57" "59" "38" "60" "55"...
.
.
.

これを見ながら、データ型を変更したり、名前を整理したり、、、と、色々な作業を行っていく。

 

例えば、

  • IDが数値として認識されているので、文字列に変更する
  • AgeOnsetが文字列として認識されているので、数値に変更する
  • Cohortの中にあるデータの名前を変更する
  • LBDSubtpeの列をfactorに変えてlevelをつける
  • Sexを1 → Male, 2 → Femaleに変えて、levelをつける

etc...

Data_C$INDDID <- as.character(Data_C$INDDID)
Data_C$AgeOnset <- as.numeric(Data_C$AgeOnset)
Data_C$Cohort <- plyr::revalue(Data_C$Cohort, c("AD+LBD" = "LBD+AD"))
Data_C$LBDSubtype <- factor(Data_C$LBDSubtype, levels = c(
  "No Lewy pathology",
  "Brainstem Predominant",
  "Amygdala Predominant",
  "Transitional or Limbic",
  "Diffuse or Neocortical"
  ))
Data_C$Sex <- as.character(Data_C$Sex)
Data_C$Sex <- plyr::revalue(Data_C$Sex, c(1 = "Male", 2 = "Female"))
Data_C$Sex <- factor(Data_C$Sex, levels = c("Male", "Female"))

 

で、もう一回データの中身を確認すると、

str(Data_C)

色々変わっている。

output
tibble [1,052 × 191] (S3: tbl_df/tbl/data.frame)
$ ID : chr [1:1052] "101493" "116342" "116322" "109018" ...
$ Cohort : chr [1:1052] "LBD+AD" "LBD" "AD" "LBD+AD" ...
$ LBDSubtype : Factor w/ 5 levels "No Lewy pathology",..: 2 2 2 2 2 2 4 4 4 4 ...
$ Sex : Factor w/2 levels "Male", "Female": 1 1 2 1 1 1 1 2 1 1 ...
$ Age : num [1:1052] 83 78 75 74 78 74 81 67 87 84 ...
$ AgeOnset : num [1:1052] 57 59 38 60 55...
.
.
.