기본 콘텐츠로 건너뛰기

11월, 2017의 게시물 표시

moonbook # table 작성 tool

R은 base system과 Package로 구성된다. (1) Base system은 CRAN(Comprehensive R Archive Network) site에 접속해서 다운로드해서 설치했던 R 설치가 바로 Base system이다. (2) Package는 R함수, 데이터, 컴파일된 코드 등을 모아 놓은 것을 말함. 통계분석 목적/필요에 따라서 Base system에 레고 블록처럼 설치를 해서 사용하게 됩니다. package의 종류   - base package : 설치_불필요, 사용_불필요   - Recommended packages : 설치_자동, 사용_필요   - Other packages : 설치_개별설치, 사용_불러오기 필요.  즉, Other package만이 개별설치가 필요함.  R package설치는 install.packages("package name") 함수를 사용해야한다. 패키지 설치후에는 package를 불러오기만 하면된다. library(package name) 혹은 require(package name) 함수를 사용하면 된다. ""를 잘 구분해야함. install.package("moonbook")   #CRAN의 패키지 설치. requrire(moonBook)  #패키지 불러오기. res<- mytable(walk_yn ~age_gr+age+gender+smk_all+BMI_gr+BMI+sbp1+dbp1,                        data =mydata, method=1 , digits=1, max.ylev = 5) # data = mydata :  실제 데이터를 의미. # method =1   -> 정규분포로 가정하여 정규분포(normal distributi...

cut() ### 데이터 범주형 변수로 만들기. chapter 01

데이터 크게 1) 명목형 data  or 순서형 변수: categorical data  => factor 형 data  예를 들면 (남, 여), 인종, 등등 2) 연속형 data : continuous data  => 순서가 있는 순서형 요인(ordered factor) data   예를 들면 온도,  로 구분한다. 연속형 변수를  범주형 변수로 변환 해야만 도수분포표, 교차분포표, 카이제곰 검정, 로지스틱회귀분석, 그래프(막대그래프)를 활용할 수 있다. mydata$BMI_gr <- cut(mydata$BMI, breaks=c(0,18.5,25,Inf),                        labels=c("저체중","정상","과체중"), right = FALSE) # right =true : a<x<=b를 의미, right= false : a<=x<b를 의미.        #include.lowest =true라는 항목 또한 넣을 수 있다. 구성요소 값이 최소값이더라고 변환을 시키게 된다. 이게 햇갈려서  ifelse() 를 사용하게 된다. mydata$BMI_gr <- transform(mydata$BMI,                                

vector 값

R에서 사용하는 가장 기본적인 데이터 셋의 형태 는 백터(vector) 이다. (수학에서 사용하는 벡터와는 의미가 다르다. 용어를 이렇게 햇갈리게 만들어나 ) R에서 사용하는 벡터의 의미는 하나 이상의 숫자, 문자등의 집합을 벡터라고 한다.  참고 : 벡터를 행과 열로 가지는 표형식으로 확장하는 것이 행렬(matrix)이다. 벡터는 c() 를 이용해서 만든다. ve  <- c("abc",1,2) is.vector(ve)  #ve가 벡터 인가? 를 묻는 용어.

na.commend() # 결측값 확인 및 처리!

데이터 처리 순서  1. 외부 텍스트 파일로 대용량 데이터 불러들이기. 2. str() # 명령어로 데이터 구조파악하기 3. head(), tail()   # 로 데이터 몇개 보기 4. 결측값 확인 및 처리   # 데이터 cell에 빠진 값이 있는지 확인하는 작업 5. 특이값/영향치 확인 및 처리 등의 탐색적 분석 4_1 is.na() R은 true =1로 false =0으로 표현한다. is.na()    # 결측값이 포함되어 있는지를 표시하는 것. sum(is.na())  # 결측값이 몇개 있는지 계산하는 방법  - 결측값을 몇번째 행에 있는지를 알기 위해서는 $(첫번째 열)을 행 뒤에 붙여 넣어야 한다.  sum(is.na(data$data3) 4_2 colSums()   # 데이터 프레임 내 다수의 변수들에 대해서 각 개별 변수별 결측값의 개수를 찾을 수 있다. 즉 sum(is.na( data ))를 한번에 돌려서 보여주는 명령어. 4_3 na.rm=TRUE 4_4  na.omit()      # 결측 값이 있는 행을 무식하게 통으로 제거하는 함수

head, tail # data 파일 체크

head(filename,    # data의 head(첫행)과 그 밑6행을 표현하는 명령어임. 그리고  n=20    # n을 바꾸면 행을 더 볼 수 있다.  ) tail (filename)      # 마지막 6행을 볼 수 있는 명령어임. str(filename)     # data structure, 갯수, 변수 명 들을 관찰 할 수 있다. 

read.csv # csv 파일 입출력하기.

data <- read.csv( "폴더 안에 있는 파일명", header =TRUE or FALSE     # 파일의 첫행을 입력할 것인가 아닌가를 설명. 설정을 안할경우 보통 TRUE로 설정이된다. sep=","   # "," :  열을 나눠주면서 file을 읽는 방법, "-" : 열을 나눠주지 않고 같이 읽어버리는 방법. )

아침

11월 20일 아침 이번주도 다른날과 다르지 않게 해가 밝았다. 어제 꽃순이가 보내준 두유와 함께 잠에서 일어났다. 오늘은 어제보다 조금은 더 추운거 같다.  회사로 출근하는 마음이 가볍지는 않다. 지금하고 있는 이 순간이 마주하기 싫어서 피하고 싶어서지, 아니면 좀더 나은 미래를 위해서 인지는 모르겠다.