Toolbox

글

11월, 2017의 게시물 표시

moonbook # table 작성 tool

R은 base system과 Package로 구성된다. (1) Base system은 CRAN(Comprehensive R Archive Network) site에 접속해서 다운로드해서 설치했던 R 설치가 바로 Base system이다. (2) Package는 R함수, 데이터, 컴파일된 코드 등을 모아 놓은 것을 말함. 통계분석 목적/필요에 따라서 Base system에 레고 블록처럼 설치를 해서 사용하게 됩니다. package의 종류 - base package : 설치_불필요, 사용_불필요 - Recommended packages : 설치_자동, 사용_필요 - Other packages : 설치_개별설치, 사용_불러오기 필요. 즉, Other package만이 개별설치가 필요함. R package설치는 install.packages("package name") 함수를 사용해야한다. 패키지 설치후에는 package를 불러오기만 하면된다. library(package name) 혹은 require(package name) 함수를 사용하면 된다. ""를 잘 구분해야함. install.package("moonbook") #CRAN의 패키지 설치. requrire(moonBook) #패키지 불러오기. res<- mytable(walk_yn ~age_gr+age+gender+smk_all+BMI_gr+BMI+sbp1+dbp1, data =mydata, method=1 , digits=1, max.ylev = 5) # data = mydata : 실제 데이터를 의미. # method =1 -> 정규분포로 가정하여 정규분포(normal distributi...

자세한 내용 보기

aaaa[]내부의 변수 불러오기

mydata$SRH[mydata$SRH==1] <- 2 # mydata의 SRH의 텝 에있는 1을 불러와서 2로 교체 한다.

자세한 내용 보기

cut() ### 데이터 범주형 변수로 만들기. chapter 01

데이터 크게 1) 명목형 data or 순서형 변수: categorical data => factor 형 data 예를 들면 (남, 여), 인종, 등등 2) 연속형 data : continuous data => 순서가 있는 순서형 요인(ordered factor) data 예를 들면 온도, 로 구분한다. 연속형 변수를 범주형 변수로 변환 해야만 도수분포표, 교차분포표, 카이제곰 검정, 로지스틱회귀분석, 그래프(막대그래프)를 활용할 수 있다. mydata$BMI_gr <- cut(mydata$BMI, breaks=c(0,18.5,25,Inf), labels=c("저체중","정상","과체중"), right = FALSE) # right =true : a<x<=b를 의미, right= false : a<=x<b를 의미. #include.lowest =true라는 항목 또한 넣을 수 있다. 구성요소 값이 최소값이더라고 변환을 시키게 된다. 이게 햇갈려서 ifelse() 를 사용하게 된다. mydata$BMI_gr <- transform(mydata$BMI,

자세한 내용 보기

vector 값

R에서 사용하는 가장 기본적인 데이터 셋의 형태 는 백터(vector) 이다. (수학에서 사용하는 벡터와는 의미가 다르다. 용어를 이렇게 햇갈리게 만들어나 ) R에서 사용하는 벡터의 의미는 하나 이상의 숫자, 문자등의 집합을 벡터라고 한다. 참고 : 벡터를 행과 열로 가지는 표형식으로 확장하는 것이 행렬(matrix)이다. 벡터는 c() 를 이용해서 만든다. ve <- c("abc",1,2) is.vector(ve) #ve가 벡터 인가? 를 묻는 용어.

자세한 내용 보기

na.commend() # 결측값 확인 및 처리!

데이터 처리 순서 1. 외부 텍스트 파일로 대용량 데이터 불러들이기. 2. str() # 명령어로 데이터 구조파악하기 3. head(), tail() # 로 데이터 몇개 보기 4. 결측값 확인 및 처리 # 데이터 cell에 빠진 값이 있는지 확인하는 작업 5. 특이값/영향치 확인 및 처리 등의 탐색적 분석 4_1 is.na() R은 true =1로 false =0으로 표현한다. is.na() # 결측값이 포함되어 있는지를 표시하는 것. sum(is.na()) # 결측값이 몇개 있는지 계산하는 방법 - 결측값을 몇번째 행에 있는지를 알기 위해서는 $(첫번째 열)을 행 뒤에 붙여 넣어야 한다. sum(is.na(data$data3) 4_2 colSums() # 데이터 프레임 내 다수의 변수들에 대해서 각 개별 변수별 결측값의 개수를 찾을 수 있다. 즉 sum(is.na( data ))를 한번에 돌려서 보여주는 명령어. 4_3 na.rm=TRUE 4_4 na.omit() # 결측 값이 있는 행을 무식하게 통으로 제거하는 함수

자세한 내용 보기

Toolbox

이 블로그 검색

글

moonbook # table 작성 tool

aaaa[]내부의 변수 불러오기

cut() ### 데이터 범주형 변수로 만들기. chapter 01

vector 값

na.commend() # 결측값 확인 및 처리!

head, tail # data 파일 체크

read.csv # csv 파일 입출력하기.

setwd # 작업공간 설정

rm() #r program

아침