기본 콘텐츠로 건너뛰기

Degree of freedom (df: 자유도)

Degree of freedom; df



: 자유스러운 정도. 편차의 합은 "0"이 되어야 한다는 성질을 이해해야 한다.

 예를 들어, 남자 4명(A, B, C, D)과 여자 4명(a,b,c,d)가 미팅을 합니다. 이런 저런 얘기 끝에 파트너를 결정하기로 했는데, 그 방법으로 여자들이 차례로 남자를 결정하는 방식을 택했습니다.

첫번째 여자 a 는 4명의 남자들 중에서 자신의 파트너를 자유롭게 선택할 수 있습니다. D
두번째 여자 b 는 남은 3명의 남자(A, B, C) 중에서 자유롭게 선택할 수 있습니다. A
세번째 여자 c 는 남은 2명의 남자(B, C) 중에서 자유롭게 선택할 수 있습니다. B
마지막 여자 d 는 무조건 C라는 남자와 파트너를 해야됩니다.

이제 미팅이 끝나고 파트너를 정했습니다. 위에서 보면 a,b,c 3명의 여자는 파트너를 자유롭게 선택할 수 있었습니다. 즉, 자유롭게 선택할 수 있는 여자의 수는 자유도는 4-1 = 3 이 됩니다. 그래서 유명한 자유도 n-1 이 나오게 된 거죠. 

이것을 편차와 결부시켜 생각을 하면 편차를 계산하려면 평균은 당연히 알고 있겠죠. 그리고 편차의 합은 0 이라는 성질을 이해하면 n-1 개의 값들은 어떤 값이던 자유롭게 될 수 있습니다. 그러나 마지막 하나의 값은 n-1 개의 값이 정해지면 그 값도 자동으로 결정이 나죠. 
이것이 아래의 표준편차에서 n 이 아닌 n-1 로 나누어주는 이유중의 하나입니다.


본래 자유도는 1900 년경에는 분산 공식에 n 을 사용하였습니다. 그러나, 여기에는 한가지 문제가 있었습니다. 표본의 크기 n 이 아주 클 경우에는 문제가 없었지만, 표본의 크기 n 이 작을 경우에 문제가 발생된 것입니다. 즉, 똑깥은 방법으로 표본을 추출하여 분산을 구하였는데, 그 값이 모분산과 일치하지 않는 문제가 발생이 된 것입니다. 즉, 편의(Bias)라고 하는 오차가 생기에 된 것입니다. 앞에서 말한 것처럼 표본의 크기가 아주 크게 되면 그 차이는 아주 미미해지므로 대수롭지 않게 생각되었으나, 표본의 크기각 작은 경우에는 심각한 문제에 봉착하게 되는 것이죠. 그래서 1950년 경부터는 이런 편의(Bias)을 줄이는 것(또는 편의를 없애는 것)에 대해 연구를 하게 되어 그 결과로 n-1 을 사용하게 된 것입니다. 실제 이론적으로는 훨씬 전부터 n-1을 사용할 경우에 편의가 없어진다는 것을 알고 있었지만, 현실에서는 사용을 하지 않았던 것이죠. 그러다가 심각한 문제에 봉착되어지자 n-1 이라는 자유도를 사용하여 불편분산(UnBiased Variance)이라고 하는 표본분산(표준편차)을 사용하게 된 것입니다. 이때 UnBias라는 것의 의미는 편의(Bias)를 없앤다는(Un) 뜻이 포함되어 있는 것입니다

댓글

이 블로그의 인기 게시물

Kernel Density Estimation(커널밀도추정), Density plot in R

 Kernel Density Estimation(커널밀도추정) Density Estimation(밀도추정)  : 통계란, 데이터는 어떤변수가 가질 수 있는 다양한 가능성 중에 하나가 현실 세계에 구체화된 값이다. 그리고 우리는 그 변수의 성질을 파악하기위해서 부단히 노력을 한다. 하나의 데이터로 특성을 파악하기에는 어렵기 때문에 수많은 데이터를 이용해서 데이터의 특성을 파악하고자 노력을 한다. 이렇게 얻어진 데이터를 이용해서 데이터들의 분포로 부터 원래변수의 분포특성을 추정하고자 하는 것이 density estimation 이라고 한다.  - 밀도(density)는 수학적으로는 질량/부피 이지만,  밀도추정(density estimate), 기계학습, 확률, 통계 등에서 말하는 밀도(density)는 확률밀도(probagiltity density function)을 추정하는 것과 동일하다. f(a)는 x=a에서의 확률밀도(probability density)이다. 즉 x가 a라는 값을 가질 상대적인 가능성(relative likelihood)를 나타낸다.  즉 다시말하면 x=a 일 확률은 0이지만, x=a에서의 밀도는 0이 아니다. 또한 x가 a,b 사이의 값을 가질 확률은 그 구간의 확률밀도함수의 적분값으로 계산된다. 어떤 변수의 확률밀도함수(PDF)를 구할 수 있으면 그 변수가 가질 수 있는 값의 범위 및 확률, 기계학습 추정등에서 가장 핵심정인 요소중의 하나이다. Parametric vs Non-parametric 밀도추정. 밀도추정(density estimation)방법은 크게 parametric 방법과 non-parametric 방법으로 나뉜다. parametric density estimate는  확률밀도함수(PDF)에 대한 모델을 정해놓고 데이터들로부터 모델의 파라미터만 추정하는 방식이다.  즉 예를 들면 일일 교통량이 정규분포를 따른다고 가정해버리면...

python; cv2.getStructuringElement

사용법 cv2.getStructutinElement(shape,ksize[,anchor]) parameter shape :  - MORPH_RET : 사각형  - MORPH_ELLIPSE : 타원형  - MORPH_CROSS : 십자 ksize => 커널의 사이즈를 의미 예제 :  element = cv2.getStructuringElement(cv2.MORPH_ELLIPSE,(7,7)) pl.imshow(element)