기본 콘텐츠로 건너뛰기

cut() ### 데이터 범주형 변수로 만들기. chapter 01

데이터 크게
1) 명목형 data  or 순서형 변수: categorical data  => factor 형 data
 예를 들면 (남, 여), 인종, 등등
2) 연속형 data : continuous data  => 순서가 있는 순서형 요인(ordered factor) data 
 예를 들면 온도, 
로 구분한다.

연속형 변수를  범주형 변수로 변환해야만 도수분포표, 교차분포표, 카이제곰 검정, 로지스틱회귀분석, 그래프(막대그래프)를 활용할 수 있다.


mydata$BMI_gr <- cut(mydata$BMI, breaks=c(0,18.5,25,Inf),
                       labels=c("저체중","정상","과체중"), right = FALSE)
# right =true : a<x<=b를 의미, right= false : a<=x<b를 의미. 
      #include.lowest =true라는 항목 또한 넣을 수 있다. 구성요소 값이 최소값이더라고 변환을 시키게 된다. 이게 햇갈려서 

ifelse() 를 사용하게 된다.
mydata$BMI_gr <- transform(mydata$BMI,
                               

댓글

이 블로그의 인기 게시물

Kernel Density Estimation(커널밀도추정), Density plot in R

 Kernel Density Estimation(커널밀도추정) Density Estimation(밀도추정)  : 통계란, 데이터는 어떤변수가 가질 수 있는 다양한 가능성 중에 하나가 현실 세계에 구체화된 값이다. 그리고 우리는 그 변수의 성질을 파악하기위해서 부단히 노력을 한다. 하나의 데이터로 특성을 파악하기에는 어렵기 때문에 수많은 데이터를 이용해서 데이터의 특성을 파악하고자 노력을 한다. 이렇게 얻어진 데이터를 이용해서 데이터들의 분포로 부터 원래변수의 분포특성을 추정하고자 하는 것이 density estimation 이라고 한다.  - 밀도(density)는 수학적으로는 질량/부피 이지만,  밀도추정(density estimate), 기계학습, 확률, 통계 등에서 말하는 밀도(density)는 확률밀도(probagiltity density function)을 추정하는 것과 동일하다. f(a)는 x=a에서의 확률밀도(probability density)이다. 즉 x가 a라는 값을 가질 상대적인 가능성(relative likelihood)를 나타낸다.  즉 다시말하면 x=a 일 확률은 0이지만, x=a에서의 밀도는 0이 아니다. 또한 x가 a,b 사이의 값을 가질 확률은 그 구간의 확률밀도함수의 적분값으로 계산된다. 어떤 변수의 확률밀도함수(PDF)를 구할 수 있으면 그 변수가 가질 수 있는 값의 범위 및 확률, 기계학습 추정등에서 가장 핵심정인 요소중의 하나이다. Parametric vs Non-parametric 밀도추정. 밀도추정(density estimation)방법은 크게 parametric 방법과 non-parametric 방법으로 나뉜다. parametric density estimate는  확률밀도함수(PDF)에 대한 모델을 정해놓고 데이터들로부터 모델의 파라미터만 추정하는 방식이다.  즉 예를 들면 일일 교통량이 정규분포를 따른다고 가정해버리면...

python; cv2.getStructuringElement

사용법 cv2.getStructutinElement(shape,ksize[,anchor]) parameter shape :  - MORPH_RET : 사각형  - MORPH_ELLIPSE : 타원형  - MORPH_CROSS : 십자 ksize => 커널의 사이즈를 의미 예제 :  element = cv2.getStructuringElement(cv2.MORPH_ELLIPSE,(7,7)) pl.imshow(element)