데이터 전처리 작업에 가장 많이 사용되는 패키지 dplyr
dplyr로드
library(dplyr)
dplyr패키지는 %>%기호를 이용해 함수들을 나열하는 방식으로 코드를 작성 => 단축키 Shift+Ctrl+M
ex) exam %>% filter(class == 2 | class==3)
행추출 filter()
%in%
:변수의 값이 지정한 조건 목록에 해당하는지 확인
ex) exam %>% filter(class %in% c(1,3,5)) # 1,3,5반에 해당하면 추출
mutate() 파생변수 추가
ex) mutate(total = math + english + science )
arrange() 순서대로 정렬
ex) arrange(math) ,arrange(desc(math))
bind_rows()
데이터를 세로로합침
가로로합침
왼쪽조인
left_join
ex)tatal <- left_join(test1, test2, by="id")
여기서 by에 기준 변수를 지정할 때 변수명 앞뒤에 따옴표를 입력
is.na()
데이터에 결측치가 있는지 확인
is.na()를 table()에 적용하면 데이터에 결측치가 총 몇 개있는지 출력
ex) table(is.na(exam))
결측치가 나오는 3가지 유형
1. DB (csv)파일 자체에 NULL값이 있는경우
2.대량의 csv파일을 업로드 할경우 글씨가 깨질떄가 있는데 여기서 R은 이것을 NA로 표시한다.
3.사용자가 자체적으로 NA로 만든 경우
na.omit()
결측치가 하나라도 있을경우 해당 행을 제거
'인공지능 교육 > R' 카테고리의 다른 글
21/06/09 37일차 인공지능 교육 (0) | 2021.06.09 |
---|---|
21/06/08 36일차 인공지능 교육 (0) | 2021.06.09 |
21/06/07 35일차 인공지능 교육 (0) | 2021.06.07 |
21/06/02 32일차 인공지능 교육 (0) | 2021.06.03 |
21/06/01 31일차 인공지능 교육 (0) | 2021.06.01 |