データをインポートしたらまず始めにする作業。
エクセルのデータを R にインポートする方法。 csv ファイル エクセルデータを csv ファイルに保存してインポートするのが最も一般的。 CSV ファイルとは CSV ファイルは、「comma Separated V …
今回は、同じ階層にある"my_Data"というエクセルファイルをインポート
library(readxl)
Data_C <- readxl::read_xlsx("../my_Data.xlsx")
str()
でデータの中身を確認する。
str(Data_C)
output
tibble [1,052 × 191] (S3: tbl_df/tbl/data.frame)
$ ID : num [1:1052] 101493 116342 116322 109018 ...
$ Cohort : chr [1:1052] "AD+LBD" "LBD" "AD" "AD+LBD" ...
$ LBDSubtype : chr [1:1052] "No Lewy pathology", "Brain stem predominant", "Limbic or Transitional",...
$ Sex : num [1:1052] 1 1 2 1 1 1 1 2 1 1 ...
$ Age : num [1:1052] 83 78 75 74 78 74 81 67 87 84 ...
$ AgeOnset : chr [1:1052] "57" "59" "38" "60" "55"...
.
.
.
これを見ながら、データ型を変更したり、名前を整理したり、、、と、色々な作業を行っていく。
例えば、
- IDが数値として認識されているので、文字列に変更する
- AgeOnsetが文字列として認識されているので、数値に変更する
- Cohortの中にあるデータの名前を変更する
- LBDSubtpeの列をfactorに変えてlevelをつける
- Sexを1 → Male, 2 → Femaleに変えて、levelをつける
etc...
Data_C$INDDID <- as.character(Data_C$INDDID)
Data_C$AgeOnset <- as.numeric(Data_C$AgeOnset)
Data_C$Cohort <- plyr::revalue(Data_C$Cohort, c("AD+LBD" = "LBD+AD"))
Data_C$LBDSubtype <- factor(Data_C$LBDSubtype, levels = c(
"No Lewy pathology",
"Brainstem Predominant",
"Amygdala Predominant",
"Transitional or Limbic",
"Diffuse or Neocortical"
))
Data_C$Sex <- as.character(Data_C$Sex)
Data_C$Sex <- plyr::revalue(Data_C$Sex, c(1 = "Male", 2 = "Female"))
Data_C$Sex <- factor(Data_C$Sex, levels = c("Male", "Female"))
で、もう一回データの中身を確認すると、
str(Data_C)
色々変わっている。
output
tibble [1,052 × 191] (S3: tbl_df/tbl/data.frame)
$ ID : chr [1:1052] "101493" "116342" "116322" "109018" ...
$ Cohort : chr [1:1052] "LBD+AD" "LBD" "AD" "LBD+AD" ...
$ LBDSubtype : Factor w/ 5 levels "No Lewy pathology",..: 2 2 2 2 2 2 4 4 4 4 ...
$ Sex : Factor w/2 levels "Male", "Female": 1 1 2 1 1 1 1 2 1 1 ...
$ Age : num [1:1052] 83 78 75 74 78 74 81 67 87 84 ...
$ AgeOnset : num [1:1052] 57 59 38 60 55...
.
.
.
リンク
リンク
リンク
リンク