표본이 말하는 것, 작은 수에서 전체를 읽는 법
전체를 들여다볼 수 없을 때, 사람은 일부를 보고 전체를 짐작한다. 시장에서 과일 하나를 골라 맛을 보고 한 상자의 품질을 판단하듯, 통계학에서도 전체 집단 가운데 일부만 뽑아 살피는 일을 표본조사라 부른다. 이 방법은 놀라울 만큼 강력하지만, 그 힘이 제대로 발휘되려면 표본이 어떻게 뽑혔는지가 결정적으로 중요하다. 잘못 뽑힌 표본은 진실을 비추는 대신 왜곡된 그림자를 만들어낸다.
왜 전체를 세지 않는가
가장 단순한 대답은 비용이다. 어떤 나라의 시민 전체에게 설문을 돌리는 것은 현실적으로 불가능에 가깝고, 공장에서 생산한 부품을 전수검사하면 시간과 자원이 감당할 수 없이 불어난다. 그래서 전체 가운데 일부를 골라 살펴보고, 그 결과를 전체에 대한 추정으로 쓰는 것이다. 이 방법이 통하는 이유는, 충분히 잘 뽑힌 표본이라면 전체의 특성을 상당히 정확하게 반영하기 때문이다.
별을 세던 시절의 표본
사실 표본이라는 발상은 근대 통계학 이전에도 있었다. 고대 천문학자들은 밤하늘의 모든 별을 기록할 수 없었으므로, 특정 영역의 밝은 별들을 골라 관측하고 그것을 바탕으로 하늘 전체의 구조를 추론했다. 천구의 좌표를 만든 사람들도 모든 별의 위치를 잰 것이 아니라, 기준이 되는 별들의 위치를 정밀하게 측정한 뒤 나머지를 그 틀 안에 배치하는 방식을 택했다. 전체를 일부로 대표하겠다는 생각은 수천 년 전부터 존재했던 셈이다.
전수조사가 오히려 해로울 때
흥미로운 점은, 전수조사가 가능한 상황에서조차 표본조사가 더 나은 경우가 있다는 것이다. 전수조사는 규모가 크면 조사 과정에서 오류가 누적되기 쉽다. 조사원의 피로, 입력 실수, 응답 거부 같은 문제가 쌓이면 전체를 조사했음에도 오히려 부정확한 결과를 낳을 수 있다. 잘 설계된 표본조사는 소수에 집중하는 만큼 각 측정의 품질을 높일 수 있어서, 역설적으로 전수조사보다 진실에 가까운 결과를 내놓기도 한다.
무작위라는 조건

표본조사의 힘은 무작위 추출에서 나온다. 전체 집단의 모든 구성원이 뽑힐 확률이 동일해야 한다는 것이 가장 기본적인 원칙이다. 이 조건이 깨지면 표본은 전체를 대표하지 못하고, 거기서 나온 결론은 편향된다. 길거리에서 지나가는 사람을 붙잡아 설문하면 그 시간에 그 장소를 지나는 사람들의 의견만 반영될 뿐, 전체 시민의 목소리와는 거리가 멀다. 인구조사조차 이런 문제에서 자유롭지 않다.
큰 수의 법칙이 약속하는 것
무작위로 뽑은 표본의 크기를 키우면, 표본의 평균은 전체의 평균에 점점 가까워진다. 이것이 큰 수의 법칙이 말하는 바다. 주사위를 열 번 던져서 나온 평균은 3.5와 꽤 다를 수 있지만, 만 번 던지면 3.5에 아주 가까워진다. 그런데 여기서 핵심은 단순히 수가 많으면 되는 것이 아니라, 무작위성이 보장되어야 한다는 점이다. 편향된 방식으로 아무리 많이 뽑아도 결과는 편향된 채로 남는다.
무작위가 아닌 큰 표본의 위험
역사적으로 유명한 사례가 있다. 1936년 미국 대선에서 리터러리 다이제스트라는 잡지가 전화번호부와 자동차 등록부에서 천만 명에게 설문을 보내 공화당 랜던의 압승을 예측했지만, 실제로는 민주당 루스벨트가 크게 이겼다. 표본이 천만이라는 엄청난 규모였지만, 전화와 자동차를 가진 상대적 부유층에 편향되어 있었기 때문이다. 반면 조지 갤럽은 불과 수천 명의 표본으로 루스벨트의 승리를 정확히 예측했다. 차이는 표본의 크기가 아니라 추출 방식에 있었다.
표본의 크기가 정밀도를 결정한다
무작위성이 확보되었다면, 그다음으로 중요한 것은 표본의 크기다. 표본이 클수록 추정은 정밀해진다. 그런데 이 관계는 직선적이지 않다. 표본 크기가 네 배가 되면 정밀도는 두 배가 된다. 즉 제곱근에 비례해서 정밀도가 오르는 것이다. 그래서 어느 수준 이상의 정밀도를 원하면 표본 크기를 급격히 늘려야 하고, 실용적으로는 적정선에서 타협하게 된다.
오차범위라는 솔직함
여론조사 결과 옆에 붙는 오차범위 표시는 이 한계를 솔직하게 드러내는 장치다. 지지율 45퍼센트에 오차범위 3퍼센트포인트라 함은, 진짜 지지율이 42에서 48 사이에 있을 가능성이 높다는 뜻이다. 오차범위는 표본 크기에서 자동으로 결정되므로, 이 숫자를 보면 조사의 정밀도를 가늠할 수 있다. 오차범위를 밝히지 않는 조사 결과는 그만큼 덜 솔직한 셈이다.
천문 관측에서의 반복 측정
고대 천문학자들도 같은 원리를 직관적으로 알고 있었다. 일식을 예측하던 바빌로니아 사람들은 한 번의 관측이 아니라 수백 년에 걸친 반복 관측 기록을 쌓아 주기를 정교하게 추출했다. 관측이 많아질수록 주기의 추정이 정밀해진다는 것을 경험적으로 알았기 때문이다. 이것은 현대 통계학에서 표본 크기를 늘려 추정의 신뢰도를 높이는 것과 본질적으로 같은 논리다.
편향이라는 보이지 않는 적
표본조사에서 가장 경계해야 할 것은 편향이다. 선택 편향은 특정 집단이 표본에 과대 또는 과소 대표되는 것이고, 응답 편향은 응답 자체가 진실에서 벗어나는 것이며, 생존 편향은 살아남은 것들만 표본에 포함되는 것이다. 생존자 편향에서 살펴보았듯, 2차 세계대전 중 돌아온 폭격기의 피탄 흔적만 보면 방어가 필요한 곳을 정반대로 판단하게 된다. 돌아오지 못한 비행기의 데이터가 빠져 있기 때문이다.
자기 선택의 함정
온라인 리뷰나 설문에 자발적으로 참여하는 사람들은 전체를 대표하지 않는다. 극단적으로 만족하거나 극단적으로 불만인 사람이 리뷰를 남길 가능성이 높고, 중간에 있는 다수는 침묵한다. 이것이 자기 선택 편향이다. 식당의 온라인 별점이 실제 경험과 다르게 느껴지는 이유가 여기에 있다. 말하는 사람과 말하지 않는 사람의 비율이 표본에 제대로 반영되지 않기 때문이다.
편향을 줄이는 설계의 기술
편향을 완전히 제거하기는 어렵지만 줄이는 방법은 있다. 층화추출은 전체 집단을 여러 하위 집단으로 나눈 뒤 각 집단에서 비례적으로 표본을 뽑는 방법이다. 연령대별, 지역별로 인구 비율에 맞추어 뽑으면 특정 집단이 과대 대표되는 문제를 줄일 수 있다. 층화추출법은 현대 여론조사와 사회조사의 표준적인 기법이 되었으며, 비용 대비 정밀도를 크게 높여준다.
표본에서 읽어내는 것과 읽어내지 못하는 것
잘 설계된 표본조사는 전체의 평균이나 비율을 놀라울 만큼 정확하게 추정할 수 있다. 하지만 표본이 말해주지 못하는 것도 있다. 극단적인 사례나 아주 드문 현상은 표본에 포착되지 않을 수 있고, 표본 크기로는 다룰 수 없는 질문도 있다. 전체 가운데 0.01퍼센트에 해당하는 현상을 포착하려면 최소한 만 명 이상의 표본이 필요하고, 그보다 드문 현상이라면 표본조사 자체가 적합하지 않을 수 있다.
확률이 보장하는 것과 보장하지 않는 것
표본조사의 결론에는 항상 불확실성이 따라붙는다. 이것은 결함이 아니라 정직함이다. 빈도주의 통계학에서 신뢰구간이라 부르는 것은 이 불확실성의 폭을 수치로 표현한 것이다. 95퍼센트 신뢰구간이란, 같은 방식으로 표본을 백 번 뽑으면 그중 약 95번은 참값을 포함하는 구간이 나온다는 뜻이다. 확실성이 아니라 높은 확률의 정확성을 제공하는 것이 표본조사의 본질이다.
하늘을 읽은 사람들의 겸손
고대 천문학자들도 이 한계를 알았던 것 같다. 바빌로니아의 점토판에 기록된 일식 예측 목록에는 실제로 일어나지 않은 일식도 포함되어 있다. 관측 데이터에서 추출한 주기로 미래를 예측하되, 그 예측이 빗나갈 수 있다는 것을 기록 자체가 보여준다. 모든 관측은 불완전하고, 모든 예측에는 오차가 따른다는 인식은 현대 통계학이 새로 발명한 것이 아니다. 하늘을 오래 지켜본 사람들은 이미 그 겸손을 실천하고 있었다.
표본은 전체의 축소판이 아니라 전체를 향한 창이다. 그 창이 얼마나 깨끗한지는 표본을 뽑는 방식이 결정하고, 창을 통해 보이는 풍경이 얼마나 선명한지는 표본의 크기가 결정한다. 중요한 것은 창 너머에 보이는 것만큼이나, 창의 한계를 아는 것이다.