【Rデータ整理】列の抽出:[ ]を使う 更新日:2024年10月20日 公開日:2023年10月20日 R [ ] (square brackets)を使って、各要素にアクセスする方法は、下記参照。 この基本を使って、データフレームの列を抽出する。 今回は、下記データ(Data)を使用。 > print(Data) ID Co […] 続きを読む
【Rデータ整理】行や列の抽出:[]を使う 更新日:2024年10月20日 公開日:2023年10月20日 R [ ] (square brackets)を使って、各要素にアクセスする方法は、下記参照。 この基本を使って、データフレームの行や列を抽出する。 今回は、下記データ(Data)を使用。 > print(Data) ID […] 続きを読む
【Rデータ整理】列の抽出/削除/並び替え:select 更新日:2024年10月20日 公開日:2022年10月20日 R 例えば下記データ(Data_c)がある。 X ID Cohort Sex Age ADNC 1 1 232493 LBD Male 83 Low 2 2 326342 AD Male 78 High 3 3 326322 […] 続きを読む
【Rデータ整理】データの中身(構造)を確認する:str 更新日:2024年10月20日 公開日:2022年10月20日 R データをインポートしたらまず始めにする作業。 今回は、同じ階層にある"my_Data"というエクセルファイルをインポート library(readxl) Data_C <- readxl::read_xlsx(". […] 続きを読む
【Rデータ整理】1行目を列名に指定する:colnames 更新日:2024年10月19日 公開日:2022年10月12日 R 下記のようなデータが得られて、 1行目の値を列名に宛てがいたい場合。 colnames() で列名を1行目に指定した後、1行目を削除する。 colnames(df7) <- df7[1,] df7 <- df […] 続きを読む
【Rデータ整理】行の並び替え:arrange/order/sort 更新日:2024年11月20日 公開日:2022年10月7日 R 下記のようなデータフレーム(df)があり、行を昇順or降順で並べ替えたい時。 私が使いやすいと思う順で arrange() , order , sort() の使い方を書き留めておく。 dplyr::arrange() […] 続きを読む
【Rデータ整理】データフレームの行と列を入れ替える:t/as.data.frame 更新日:2024年10月19日 公開日:2022年10月4日 R 下記のようなデータがあって、行と列を入れ替えたい場合。 t(データ) でOK。 df6 <- t(df5) ただこれだと行列で返ってくるので、 > class(df6) [1] "matrix" "array […] 続きを読む
【Rデータ整理】重複する列を削除:distinct 更新日:2024年10月19日 公開日:2022年9月30日 R 下記のようなデータがあって、 "Deceased" が "True" と "False" と入力されている症例がそれぞれどれくらいずつあるか count(group_by()) で求めると、 Dat1 <- rea […] 続きを読む
【Rデータ整理】特定の条件を満たす行数をカウント 更新日:2023年5月11日 公開日:2022年9月26日 R 例えば、下記のようなデータがあって、 "Deceased" が "True" と "False" と入力されている症例がそれぞれどれくらいずつあるか知りたい時。 count(group_by()) で求める。 Dat1 […] 続きを読む
【Rデータ整理】クロス集計表 更新日:2023年5月11日 公開日:2022年7月4日 R カテゴリデータの集計表⇔データフレームの切り替え。 クロス集計表 例えば、 運動あり 運動なし 認知症あり 10 15 認知症なし 20 5 のようなデータの集計表を作る時。 基本は行列で作る。 行列(matrix)で作 […] 続きを読む
【Rデータ整理】tidy data に変換する 更新日:2023年5月11日 公開日:2022年6月18日 R ↑ これは見やすいけど、Rで計算する場合は tidy data じゃないのでちょっと困る。 これを、Rに取り込んで、tidy data に変換する方法。 tidy data と messy data については、多くのサ […] 続きを読む
【Rデータ整理】行方向の平均値を出して任意の列に適応 更新日:2023年5月11日 公開日:2022年5月25日 R 列A、列B、列C...の各行毎に平均値を出して、それぞれ新しい列に結果を追加する方法3つ。 個人の練習も兼ねて前後の工程も記載しているので、あしからず。 事前準備 データの取り込み 人からもらった、とあるデータを取り込む […] 続きを読む
【Rデータ整理】欠損値(NA)の取り扱い⑤:他のデータ値から計算で求める 更新日:2023年5月11日 公開日:2022年5月3日 R 前回の続き。 下記データフレーム(Dat)で、"Expenses" の値を補完しようと思うけど、 17行目の "Expenses" は、両隣の "Revenue" と "Profit" から計算できる。 この場合は、 " […] 続きを読む
【Rデータ整理】欠損値(NA)の取り扱い④:群の中央値で補完する 更新日:2023年5月11日 公開日:2022年5月2日 R NAの取り扱いシリーズ第4段。 今回は、他のデータから推測して補完する方法。 よく使われるのは、中央値(median)で補完する方法。 場合によっては平均値(mean)でもいいけど、中央値の方が外れ値の影響 […] 続きを読む
【Rデータ整理】欠損値(NA)の取り扱い③:他のデータから予測し補完する 更新日:2023年5月11日 公開日:2022年5月1日 R NAの取り扱いシリーズ第3段。 今回は、他のデータから予測できる場合にその情報を使って補完する方法。 他のデータを使って補完 例えば下記のようなデータフレームがあった場合、 "State" が<NA& […] 続きを読む
【Rデータ整理】欠損値(NA)の取り扱い②:欠損値を含むレコードを削除する 更新日:2024年9月22日 公開日:2022年4月27日 R NAの取り扱いシリーズ第2段。 今回は、NAがある行を取り除いて解析する方法。 NAのある行を抽出 まずは、前回のおさらい。 全体でNAがある行を抽出する方法。 Dat[!complete.cases(Dat),] で、 […] 続きを読む
【Rデータ整理】NAの取り扱い方①:NA/NA以外のデータの抽出方法 更新日:2024年9月22日 公開日:2022年4月23日 R データ整理をしていると、データが抜けていて欠損値になっている事がある。 この時の対処方法いろいろ。 前処理:空欄を NA に置き換えてデータをインポートする 例えば、下記のようなデータがあって、いくつか空欄がある。 これ […] 続きを読む
【Rデータ整理】列の順番を並び替える:select 更新日:2024年10月19日 公開日:2022年1月19日 R データフレームの列の順番を並び替える時は、列選択で使用する dplyr::select を使う。 例えば、下記の様なデータフレーム(データ名: Dat1)があって、 これを左から 「Sex -> Genotype […] 続きを読む
【Rデータ整理】ちょっとした集計:dplyr::summarise 更新日:2022年5月22日 公開日:2022年1月11日 R データフレーム内の合計や平均値などを求める時、Rでは「aggregate関数」が用意されているけど、比較的作業時間がかかるため、「dplyr::summarise」の方が良さげ。 ちょっとした集計:dplyr::summ […] 続きを読む
【Rデータ整理】文字を切り出して新しい列に追加する:mutate/substr/str_sub 更新日:2024年10月19日 公開日:2022年1月7日 R 文字列から一部だけ切り出して、新しい列を作りたい時。 列の追加は dplyrパッケージ: mutate 文字の切り出しは R標準パッケージ: substr or substring stringrパッケージ: st […] 続きを読む
【Rデータ整理】列の追加:mutate 更新日:2024年10月19日 公開日:2021年11月26日 R Rで列を追加する時は、 dplyr::mutate() を使っている。 mutate(列A+列B) のように計算式の結果を入れられるので便利だけど、文字列を入れる時はこんな感じ ▼ 例:Data というデータフレーム内で […] 続きを読む
【Rデータ整理】文字列の追加:mutate/transform 更新日:2024年10月19日 公開日:2021年10月29日 R データフレームに列を追加する時の方法2つ。 dplyr::mutate() 普段は dplyr パッケージの dplyr::mutate() を使っている。 文字列は " " で括って追加する。 mutate(列名 = […] 続きを読む
【Rデータ整理】文字etc.をつなげる:paste/paste0 更新日:2024年10月27日 公開日:2021年10月27日 R paste()やpaste0は、()内の要素を文字型に変えて、繋げて出力するときに使う。 paste() 使い方は、paste("文字1","文字2",sep = 繋げる方法) のように使う。 # AとBと1を、ハイフン […] 続きを読む
【Rデータ整理】文字列の中に数式を入れたい場合:str_c/paste 更新日:2024年10月21日 公開日:2021年10月17日 R 例えば作表の際、列名に「(N = 数字)」という情報をいれたくて、数値は計算式で出したい場合、 stringr::str_c() 文字列操作は Hadley氏作製の stringr パッケージで完結できる。 string […] 続きを読む
【Rデータ整理】NAを無視して計算する:na.rm = TRUE 更新日:2022年5月13日 公開日:2021年10月13日 R Rにはベクトル専用の関数が多く用意されている。 例えば、 sum() :合計を求める mean() :平均値を求める median() :中央値を求める etc. この時注意したいのが、データフレーム内に「 […] 続きを読む
【Rデータ整理】2つの要素をまとめて、新しい列に追加する:fct_collapse 更新日:2024年10月19日 公開日:2021年10月5日 R 例えば、あるデータ(Data)内に Alzheimer's disease neuropathologi change (ADNC) の項目があり、 そのデータフレームに ADNC="Not" と ADNC="Low" […] 続きを読む
【Rデータ整理】小数点以下を0.00とかに揃えたい場合 更新日:2021年11月14日 公開日:2021年10月3日 R R で小数点第○○位まで出したい、というときは、Excel でもおなじみの Round 関数が使える。 round(データ, 桁数) round(0.12345, 3) output 0.123 ただこれだと、小数点以下 […] 続きを読む
【Rデータ整理】スコア “1+, 2+…” を数値 “1, 2…” に変換し、データ型を数値型に変更 更新日:2022年5月12日 公開日:2021年9月25日 R 相変わらず R でデータ整理中。 今回は、データベースに記載されている 1+, 2+ などのスコアを数値 1, 2... に変換し、データ型を数値型に変更する方法。 データベースから落としてきたときは、下記のようになって […] 続きを読む
【Rデータ整理】列名とデータ型の変換 更新日:2023年3月30日 公開日:2021年9月13日 R R にデータを取り込んで、そこから最初に行う作業の備忘録。 データのインポート 私は、データベースからエクセル (.xlsx) でデータを取得し、それを R に取り込む場合が多い。 エクセルの取り込みは、 readxl: […] 続きを読む
【Rデータ整理】データフレームの結合 : join 更新日:2024年10月19日 公開日:2021年9月9日 R 最近リバイスが返ってきて、データ整理に追われ中…… n数を増やす目的等で他から持ってきたデータを結合させた時の備忘録。 dplyr::join dplyr パッケージの join 関数を使う。 join 関数は4種類。 […] 続きを読む
【Rデータ整理】データフレームの行名と列名を変更:rownames/rename/colnames 更新日:2024年10月19日 公開日:2021年9月1日 R 下記のようなデータフレームがあり、この表の行名(左側の列)と列名(一番上のヘッダー行)とを変更したい場合。 Estimate Std. Error Pr(>|z|) OR CI_low CI_high (Inter […] 続きを読む
【Rデータ整理】Factor 内の順序を入れ替える 更新日:2021年11月14日 公開日:2021年8月1日 R 例えば下記のように、 症例の年齢 Alzheimer's Disease Neuropathologic Change (ADNC) で10症例のデータフレームを作った場合。 Age <- c(65, 72, 82 […] 続きを読む
【Rデータ整理】文字の置換:gsub/sub/str_replacement 更新日:2024年10月20日 公開日:2021年7月12日 R とある csv データを取り込み…… Data1 <- read.csv("Dataset.csv") 「str()」で確認すると、 数値になっていてほしいところが、文字列で認識されている。 これはなんでかというと […] 続きを読む
【Rデータ整理】factor と numeric の変換 更新日:2022年4月16日 公開日:2021年7月8日 R これからデータ整理の色々と書き留めていく予定。 まず、とあるcsv データを取り込み。 取り込みの方法は下記 ▼ Data1 <- read.csv("Dataset.csv") 「str()」で確認すると、 fa […] 続きを読む