Degree of freedom (df: 자유도)

Degree of freedom; df

: 자유스러운 정도. 편차의 합은 "0"이 되어야 한다는 성질을 이해해야 한다.

예를 들어, 남자 4명(A, B, C, D)과 여자 4명(a,b,c,d)가 미팅을 합니다. 이런 저런 얘기 끝에 파트너를 결정하기로 했는데, 그 방법으로 여자들이 차례로 남자를 결정하는 방식을 택했습니다.

첫번째 여자 a 는 4명의 남자들 중에서 자신의 파트너를 자유롭게 선택할 수 있습니다. D
두번째 여자 b 는 남은 3명의 남자(A, B, C) 중에서 자유롭게 선택할 수 있습니다. A
세번째 여자 c 는 남은 2명의 남자(B, C) 중에서 자유롭게 선택할 수 있습니다. B
마지막 여자 d 는 무조건 C라는 남자와 파트너를 해야됩니다.

이제 미팅이 끝나고 파트너를 정했습니다. 위에서 보면 a,b,c 3명의 여자는 파트너를 자유롭게 선택할 수 있었습니다. 즉, 자유롭게 선택할 수 있는 여자의 수는 자유도는 4-1 = 3 이 됩니다. 그래서 유명한 자유도 n-1 이 나오게 된 거죠.

이것을 편차와 결부시켜 생각을 하면 편차를 계산하려면 평균은 당연히 알고 있겠죠. 그리고 편차의 합은 0 이라는 성질을 이해하면 n-1 개의 값들은 어떤 값이던 자유롭게 될 수 있습니다. 그러나 마지막 하나의 값은 n-1 개의 값이 정해지면 그 값도 자동으로 결정이 나죠.
이것이 아래의 표준편차에서 n 이 아닌 n-1 로 나누어주는 이유중의 하나입니다.

본래 자유도는 1900 년경에는 분산 공식에 n 을 사용하였습니다. 그러나, 여기에는 한가지 문제가 있었습니다. 표본의 크기 n 이 아주 클 경우에는 문제가 없었지만, 표본의 크기 n 이 작을 경우에 문제가 발생된 것입니다. 즉, 똑깥은 방법으로 표본을 추출하여 분산을 구하였는데, 그 값이 모분산과 일치하지 않는 문제가 발생이 된 것입니다. 즉, 편의(Bias)라고 하는 오차가 생기에 된 것입니다. 앞에서 말한 것처럼 표본의 크기가 아주 크게 되면 그 차이는 아주 미미해지므로 대수롭지 않게 생각되었으나, 표본의 크기각 작은 경우에는 심각한 문제에 봉착하게 되는 것이죠. 그래서 1950년 경부터는 이런 편의(Bias)을 줄이는 것(또는 편의를 없애는 것)에 대해 연구를 하게 되어 그 결과로 n-1 을 사용하게 된 것입니다. 실제 이론적으로는 훨씬 전부터 n-1을 사용할 경우에 편의가 없어진다는 것을 알고 있었지만, 현실에서는 사용을 하지 않았던 것이죠. 그러다가 심각한 문제에 봉착되어지자 n-1 이라는 자유도를 사용하여 불편분산(UnBiased Variance)이라고 하는 표본분산(표준편차)을 사용하게 된 것입니다. 이때 UnBias라는 것의 의미는 편의(Bias)를 없앤다는(Un) 뜻이 포함되어 있는 것입니다

Toolbox

이 블로그 검색

Degree of freedom (df: 자유도)

Degree of freedom; df

태그

댓글

댓글 쓰기

이 블로그의 인기 게시물

Kernel Density Estimation(커널밀도추정), Density plot in R

moonbook # table 작성 tool

python; cv2.cvtColor ;RGB 영상 이미지 처리 방법