[박수칠] 표본분산을 계산할 때 n-1로 나누는 이유는?
2016학년도 수능에 적용되었던 2007 개정 교육과정에서
2017학년도 수능에 적용될 2009 개정 교육과정으로 넘어가면서
가장 변화가 적은 과목을 꼽으라면 확률과 통계를 들 수 있습니다.
변화된 내용을 나열하면
(1) 합의 법칙, 곱의 법칙 추가
(2) 집합의 분할, 자연수의 분할 추가
(3) 연속확률변수의 평균, 분산, 표준편차 삭제
(4) S², S 추가
이 정도 뿐이니까요.
(문과의 경우에는 위 변화에
원순열, 중복순열, 같은 것이 있는 순열, 모비율 추정이
더해집니다.)
이 작은 변화에서 눈에 띄는 것이 있죠?
바로 표본분산을 의미하는 S²과 표본표준편차를 의미하는 S가
추가되었다는 점입니다.
2007 개정 교육과정에서는
표본분산, 표본표준편차라는 용어만 다뤘을 뿐,
각각의 기호에 대한 언급이 없었거든요.
2009 개정 교육과정에 S²과 S가 추가된 이유는 아마도
통계적 추정을 효과적으로 가르치고, 문제 출제에 활용하기 위한
것이라 생각됩니다.
그럼 표본분산에 대해 자세히 알아보겠습니다.
모집단으로부터 임의추출된 크기 n인 표본이 있다고 합시다.
이 표본에는 다음과 같은 변량이 포함되어 있습니다.
(이산확률변수 단원에 설명되어 있듯이 확률변수는 알파벳 대문자로,
확률변수가 갖는 값은 알파벳 소문자로 표현합니다. 따라서
표본에 포함된 변량들을 대문자로 표현한 것은
이들이 모두 확률변수라는 뜻입니다.
왜 확률변수냐?
모집단이 1부터 100까지의 자연수로 이루어졌다고 가정하면
이 가질 수 있는 값은 1부터 100까지의 자연수,
가 가질 수 있는 값은 1부터 100까지의 자연수,
…
이런 식으로 각각의 변량들이
모집단에 속한 모든 값을 가질 수 있기 때문입니다.)
이때, 표본평균 와 표본분산 은
각각 다음과 같이 계산됩니다.
표본평균은 일반적인 평균과 마찬가지로
표본에 포함된 모든 변량의 합을 표본 크기 n으로 나눕니다.
그런데 표본분산이 좀 다르죠?
일반적인 분산과 같이 (편차)²의 합을 표본 크기 n을 나누지 않고,
표본 크기에서 1을 뺀 값, 즉 n-1로 나눕니다.
이유가 뭘까요?
교과서를 찾아보면
(1) 표본분산과 모분산의 차이를 줄이기 위해 - 교학사, 동아, 미래엔, 지학사, 천재(류희찬)
(2) 표본분산의 기댓값을 모분산과 일치시키기 위해 - 금성, 천재(이준열)
라고 간단하게 언급하고 있습니다.
이것만 보고 이해하면 ‘통계 천재’죠 ㅡㅡ;
(교과서만 보고 이해하셨음 통계학과 진학을 추천드리고 싶네요.
요즘 분위기는 잘 모르겠지만, 제가 회사 다닐 적엔 품질관리 기법으로
6-시그마가 대유행이었는데 덕분에 통계학 박사들 몸값이 많이 뛰었죠.
제가 있던 회사도 억대 연봉 주고 모셔올 정도였습니다.)
그래서 좀 더 자세하게 설명드리겠습니다.
(1) 표본분산과 모분산의 차이를 줄이기 위해?
모평균을 추정하려면
모집단으로부터 크기 n인 표본을 임의추출하고,
표본평균 를 구한 다음, 모표준편차 를 이용해서
다음 식으로 신뢰구간을 구하게 됩니다.
그런데 일반적인 통계 문제에서는
모평균 뿐만 아니라 모표준편차 도 알 수 없습니다.
(간혹 모표준편차가 주어지는 문제가 있지만, 공부를 위한 예제일 뿐이죠.)
그래서 표본 크기가 30 이상일 때는
모집단의 분포와 표본의 분포가 비슷하다고 간주하고
모표준편차 자리에 표본표준편차 를 대입하게 됩니다.
이 때문에 신뢰구간이 잘 들어맞으려면
(즉, 신뢰구간에 모평균이 실제로 포함되려면)
표본표준편차가 모표준편차에 가까운 값을 가져야 하죠.
하지만 그게 쉽나요.
표본표준편차는 대체로 모표준편차보다 작거든요.
설명을 위해 아래의 예를 보겠습니다.
(엑셀 통계 관련 기능 진짜 오랜만에 씀 ^^)
위는 정규분포 N(50, 15²)을 따르는 모집단에서
크기 30인 표본을 임의추출하기를 다섯 번 반복한 결과입니다.
(각각의 변량은 신경쓰지 말고, 맨 아래에 있는 평균과 분산에 주목해주세요.)
먼저 분산(÷30)은 일반적인 분산과 같이
(편차)²의 합을 표본 크기 30으로 나눈 값입니다.
왼쪽부터 차례로 186.74, 235.42, 195.69, 215.81, 146.76이며,
모분산 15²=225와 차이가 어느 정도 있는 편입니다.
다음으로 분산(÷29)는
(편차)²의 합을 (표본 크기)-1, 즉 29로 나눈 값입니다.
그럼 분산이 어떻게 변할까요?
분모가 줄었으니 분산은 당연히 커집니다.
왼쪽부터 차례로 193.18, 243.54, 202.43, 223.25, 151.82인데
두 번째 표본을 제외하면 분산(÷30)의 경우보다 모분산 225에
더 가까워졌음을 알 수 있네요.
이런 이유로 표본 분산을 구할 때는
(편차)²의 합을 (표본 크기)가 아니라 (표본 크기)-1로 나누는 것이
합리적이라 할 수 있습니다.
그런데… 이런 의문도 듭니다.
‘(표본 크기)-2로 나누면 모분산에 더 가까워지지 않을까?’
그러나
n-1로 나누는 것은 괜찮지만, n-2로 나누는 것은 안됩니다.
n-1로 나누는 것은 ‘자유도’라는 개념과 연결되거든요.
자유도를 간단하게 설명하면 다음과 같습니다.
평균이 50인 세 수 a₁, a₂, a₃이 있다고 합시다.
만일 a₁=40, a₂=65라면 a₃의 값은 45가 되어야 합니다.
평균이 정해져 있으니까요.
a₁, a₂, a₃ 가운데 a₁, a₂의 값은 자유롭게 정할 수 있지만,
a₃의 값은 a₁, a₂의 값에 따라 정해집니다.
그래서 a₃을 ‘자유도가 없는 수’라고 하며,
자유도는 변수 개수에서 자유도가 없는 수의 개수를 뺀 2가 됩니다.
앞의 표본도 마찬가지입니다.
29개 변량의 값은 자유롭게 정할 수 있지만, 30번째 변량은
평균이 50에 가까워야 한다는 조건 때문에 자유도가 없는 수가 됩니다.
따라서 자유도는 29가 되고, 표본분산을 구할 때
(편차)²의 합을 자유도로 나누게 되는 겁니다.
(2) 표본분산의 기댓값을 모분산과 일치시키기 위해?
(1)이 경험적인 이유라면 (2)는 수학적인 이유입니다.
계산으로 명확하게 입증되거든요.
표본분산을 { (편차)²의 합 } ÷ (n-1)로 정의하면
다음과 같이 표현할 수 있습니다.
이때, 표본분산의 기댓값은 다음과 같이 모분산과 일치하게 됩니다.
(유도 과정은 너~무 복잡하기 때문에 생략)
모집단으로부터 크기가 같은 표본을 반복해서 임의추출하고,
각각의 표본에서 표본분산을 계산하고,
다시 표본분산들의 평균을 구하면
모분산 이랑 일치한단 얘기죠.
뭔가 딱 맞아떨어지죠?
반면에
표본분산을 { (편차)²의 합 } ÷ n으로 정의하면
표본분산의 기댓값은 다음과 같이
모분산 과 만큼의 차이가 생기게 됩니다.
왜 n-1로 나누는지 감이 조금 오죠? ^^
혹시나 해서 드리는 얘긴데…
위 내용이 이해가 되지 않아도 아무 걱정할 필요 없구요,
그냥 ‘표본분산 구할 때는 (편차)²의 합을 n-1로 나눈다’라는 것만
새겨두시면 됩니다 ^^
0 XDK (+0)
유익한 글을 읽었다면 작성자에게 XDK를 선물하세요.
박수칠 수학 책 교과서처럼 그냥 읽는건가요? 어떤 점이 내세울만 한가요?
개념 부분은 교과서처럼 읽으면서 이해하고, 문제 부분은 손을 쓰면서 따라 풀어야죠.
연습장에 풀어도 괜찮지만 부교재를 이용하면 더 효과적입니다.
부교재에 있는 수능/모평 기출문제로 연습할 수 있구요.
박수칠 수학의 내세울 점이라...
일단 개념을 가장 자세하게 설명한 교재 가운데 하나구요,
개념-기본 유형 다음에 주요 기출이 다이렉트로 연결됩니다.
처음 공부할 땐 어려울 수 있겠지만, 유형 접근법 파악하기에
상당히 효과적인 방식이라 생각합니다.
(그래도 어려운 부분에는 회색 동그라미 표시가 있어서
건너뛸 수 있도록 했구요.)
자세한 책 소개는 아래 주소 참고하시면 됩니다.
http://orbi.kr/0007649774
문제는 따로할거구 교과서처럼 읽어보는용도로 좋나요?
본교재는 개념-문제-풀이 이런 식으로 연결되어 있기 때문에
기본이 있는 수험생이라면 읽는 것만으로도 내용 정리가 될 것 같습니다.
내년에 동생은 이거 시켜야지
올해는 책이 다 안나올듯 ㅠㅠ
칼럼 언제나 잘 보고 있어요~
저도 빨리 쓰고 싶은데 올해는 확통만 낼 수 있을 것 같네요.
읽어주셔서 감사합니다 ^^
수험생은 아니지만 잘 읽고 있어요. 아즈.... 아니 아재.
우선 아재라 해주셔서 감사드리고,
늘 읽어주셔서 또 감사드립니다 ^^
지우지 말아주세요 확통도 얼른 나오면 좋겠네요 그렇다고 집필하시는데 너무 무리하지는 마시고요.. 진짜 궁금했던건데 항상 좋은글 감사합니다
글 안지우니 걱정마세요~
2년 전에 오르비에 쓴 첫 번째 글도 아직 남아있으니까요 ^^
그리고 부교재 작업 끝나면 확통 쓰기 시작합니다.
여름~가을 사이 예정이라 최종 정리용으로 활용할 수 있도록
시기를 맞춰보겠습니다.
저것은 베라...??
어... 츠네모리 감시관이다!
동지 발견!
올 네 맞아요ㅋㅋ
엌ㅋㅋ 대학교에서 배웠던것같네요
맞습니다.
저도 학부 때 확통 과목 들으면서 배웠어요^^
전 분석화학..? 에서요 ㅋㅋ
수능에 필요한가요?
아뇨~
본문 마지막에 언급했듯이 표본분산 구할 때
n-1로 나눈다는 것만 알면 충분합니다.
이유가 궁금해서 잠못자는 분들을 위해 썼어요 ^^
성지교과서에 있는 내용이네용
찾아보니 본문의 (2)에 대해 자세히 설명되어 있네요.
본문에 생략했던 유도 과정도 포함되어 있구요.
칼럼 쓸 때 개정교과서만 참고하는 바람에
성지에도 설명되어 있는 줄 몰랐네요. (뭔가 놓친 느낌...)
갓 성지 교과서
성지 교과서 좋죠.
일반 교과서와 정석의 중간쯤에 위치한 느낌이랄까...
박수칠 수학 미적분1, 2 쓰면서 가장 많이 참고한 자료가
개정 9종 교과서, 성지 교과서, Calculus(Stewart)인데
확통 쓸 때도 계속 봐야겠네요.
와우
음... 중간에 엑셀 캡쳐에 대한 반응인가요?
두고두고 글 보려고 댓글 남겼어요ㅋㅋ
불편추정량 ㅋㅋ
배우신 분이군요 ㅋㅋㅋ
정성글은 좋아요!
제 글 좋아해주는 분도 좋아요!
수능 전에 친구 인강교재에서 봤다가 찝찝하게 넘어간 기억이 있었는데ㅋㅋ늦게 나마 이해하게 됬습니다!! 감사합니ㅏㄷ
이런 댓글 참 좋아요~
저도 읽어주셔서 감사드립니다 ^^
달그락....달그락...
박수칠 미적1도 있나요?
현재 미적분1, 2가 나와 있고,
여름~가을 사이에 확통이 나올 예정입니다.
미적분1, 2의 본교재와 부교재는 아래 페이지에 있습니다.
본교재 구입: https://atom.ac/books/1504
부교재 다운로드: http://orbi.kr/0005897498
갓수칠썜~
칼럼 올리신진 꽤 됐지만 공부하다가 의문이 생겨 여기에 남깁니다
1. 표본분산 S가 임의추출시 편차제곱 총합을 n-1로 나누는건 알고있는데
기본 분산공식 편차의제곱을 n으로 나누는것은 그렇게 오차가 크지 않기땜에 그대로 두는건가요?? (모분산 구할때, 표본평균의 분산 구할때)
왜 하나로 통일하지 않고 n 또는 n-1로 갈린건지..
2. S제곱의 개정수학에서의 위상과 기존개념과의 연관성이 궁금합니다
모집단에서 n개를 임의추출하여 총합/ n 으로 X바(표본평균)를 정의하고, 그 X바가 확률변수이기땜에 거기에서 평균 분산 표준편차( 정확히 말하면 표본평균의 평균, 분산, 표준편차) 를 계산하는걸로 아는데
기존 모집단에서 분산 표준편차 계산이나 표본평균의 분산 표준편차 계산에선 n으로 나누니깐
위의 S제곱이 n-1로 나누는것은 큰 관련이 없는듯보이는데요(개인적인 생각에는 아예몰라도 표본평균의 ~ 시리즈는 구하는데 지장이 없으니)
개정수학에서 위상이 커진것인지, 커졌다면 얼마나 커진것인지 궁금합니다.
3. 통계 단원이 기본적으로 확률밀도함수도 그렇고 고교과정을 뛰어넘는 부분이 많기땜에 이해보다는
받아들임이 많은것같아요.. 그래서 문제풀때도 되게 스킬적으로 기계적으로 풀게되는데
아니 그렇게 할수밖에없는거같은데
이해를 어느정도 해야할지..? 그냥 그정도면 충분할려나요
갓수칠쌤 정도만큼만 설명해줘도 웬만한건 그러러니 하는데 교과서를 봐도 설명이 불충분한거같아서요. 근데 개정에서 통계 비중이 강화된건 사실이니 말입니다..
질문이 길었네요ㅠㅠ
아 그리고
표본평균은 거기에 나아가서 또 평균 분산 표준편차 구하는데
표본분산은 왜 거기에 평균 분산 표준편차 구하지 않는것인지요?
일반화가 안되거나 의미가 없나요??
질문들 핵심만 요약하면
1. 모분산 또는 표본분산을 정의할때 분모를 n-1 또는 n으로 통일하지 않는이유
2. 표본분산, 즉 S제곱은 표본평균의 평균분산표준편차 관련해서 직접적인 상관 없는데 왜 개정교육과정에서 강화됐는지? (추가됐다길래..) 개연성이나 상관성?
3. 통계공부에서 이해의 정도? (타 강사분들이 꼼꼼한 이해가 필요하다 하지만 실상은 증명하나도 교과서에 안싣으니까 의문)
4. 표본의 평균의 평균분산표준편차 시리즈는 쫙 구하고 공부하면서
표본의 분산의 평균분산표준편차나
표본의 표준편차의 평균분산표준편차 안 구하는 이유?
규칙이 없거나 의미가 없나?
입니다. 질문은 독백체로 쓴거감안해주세요 ㅋㅋ
1.
크기 n인 모집단에서
모평균은 (변량의 합) / n 으로,
모분산은 { (편차)² 의 합 } / n 으로 정의됩니다.
그리고 n의 값이 크면
모평균, 모분산을 구하기 어렵기 때문에
표본을 추출해서 모평균을 추정하게 되죠.
표본을 이용한 모평균 추정에는 표본평균과 모표준편차가 필요합니다.
그런데 모표준편차도 알 수 없기 때문에 모표준편차 대신
표본표준편차를 사용합니다.
표본표준편차를 구하기 위해 표본분산을 계산할 때
예전에는 모분산과 똑같이 { (편차)² 의 합 } / n 을 적용했습니다.
그랬더니 신뢰구간이 잘 안맞는다는 것을 발견하게 되었죠.
표본분산이 모분산보다 작은 것이 이유였기 때문에
표본분산을 { (편차)² 의 합 } / n-1 로 재정의하게 됩니다.
이론적으로도 표본분산의 기댓값이 모분산과 일치하기 때문에 문제가 없구요.
(표본을 여러 개 뽑아서 각각의 표본분산을 구하고, 그것들을 평균냈더니
모분산이랑 가깝더라 이겁니다.)
즉, 분산은 n으로 나누는 것이 맞고,
모평균을 추정하기 위해 표본을 추출한 상황에서만
n-1로 나누는 겁니다.
2.
본문 초반에 언급되어 있듯이
기존 교육과정에 표본분산, 표본표준편차라는 용어만 있었기 때문에
통계적 추정에 대한 효과적인 이해를 위해 기호까지 추가된거라 생각됩니다.
3.
고등학교 통계는 모평균의 추정을 설명하기 위해
중간에 필요한 복잡하고 어려운 개념들을 최소화해서 설명하고 있습니다.
그러다 보니 깊이 있는 이해가 필요한 문제들은 출제되지 않고 있죠.
비중이 늘어나더라도 이 부분은 변하지 않을거라 생각되고,
개념은 교과서 수준만 이해해도 충분할 겁니다.
4.
3에서도 말했다시피 고등학교 통계의 최종 목표는 모평균의 추정입니다.
표본평균의 분포는 모평균 추정에 필요한 핵심 개념이구요.
그러니 표본평균의 평균, 분산, 표준편차를 가르쳐야죠.
본문에 언급되어 있듯이
표본표준편차의 평균이 모표준편차와 일치하긴 하는데
이것까지 다루면 통계 진짜 어려워집니다.
통계적 추정을 이해하는데 꼭 필요한 것도 아니구요.
그러니 빼야죠~ ^^
아 생각이 짧았던 부분이 느껴지네요
어느정도 이해됩니다 고맙습니다!
혹시 모평균의 추정에서 표본의 크기가 클 때 모표준편차와 표본표준편차가 큰 차이가 없음을 증명하는 자료도 갖고 있으세요? 관련 글 알고계시면 링크나 설명좀 부탁드립니다
표본분산을 모분산의 추정치로 쓰는 것은
표본분산의 기댓값이 모분산이랑 같기 때문입니다.
이에 대한 증명은 박수칠 수학 확통 p.284,
성지출판 적분과 통계 교과서 p.188에 있습니다.
그리고 성지출판 교과서는 아래 링크에서 받을 수 있습니다.
http://www.sungjipub.com/School/middlefile_down_pop01.html
실제 적용 사례는 본문의 표와 같이
엑셀을 이용해서 임의표본을 추출하는 방식으로 설명하면 될거구요 ^^
감사합니다 확실하게 이해가 되네요