데이터 처리 순서
1. 외부 텍스트 파일로 대용량 데이터 불러들이기.
2. str() # 명령어로 데이터 구조파악하기
3. head(), tail() # 로 데이터 몇개 보기
4. 결측값 확인 및 처리 # 데이터 cell에 빠진 값이 있는지 확인하는 작업
5. 특이값/영향치 확인 및 처리 등의 탐색적 분석
4_1 is.na()
R은 true =1로 false =0으로 표현한다.
is.na() # 결측값이 포함되어 있는지를 표시하는 것.
sum(is.na()) # 결측값이 몇개 있는지 계산하는 방법
- 결측값을 몇번째 행에 있는지를 알기 위해서는 $(첫번째 열)을 행 뒤에 붙여 넣어야 한다.
sum(is.na(data$data3)
4_2
colSums() # 데이터 프레임 내 다수의 변수들에 대해서 각 개별 변수별 결측값의 개수를 찾을 수 있다. 즉 sum(is.na(data))를 한번에 돌려서 보여주는 명령어.
4_3 na.rm=TRUE
4_4
na.omit() # 결측 값이 있는 행을 무식하게 통으로 제거하는 함수
댓글
댓글 쓰기