분산이라는 폭, 같은 평균 다른 세계
두 학급의 시험 평균이 70점으로 같다고 하자. 한 학급은 모든 학생이 65점에서 75점 사이에 모여 있고, 다른 학급은 30점대와 100점이 섞여 있다. 두 학급의 평균은 동일하지만, 교육적 상황은 전혀 다르다. 평균이라는 숫자 하나로는 포착되지 않는 이 차이를 잡아내는 것이 분산이다.
분산이란 무엇인가
분산은 데이터가 평균으로부터 얼마나 흩어져 있는지를 측정하는 지표다. 각 관측값에서 평균을 빼고, 그 차이를 제곱한 뒤, 전체의 평균을 구한 것이다. 차이를 제곱하는 이유는, 양수와 음수를 단순히 더하면 서로 상쇄되어 흩어진 정도가 드러나지 않기 때문이다.
표준편차라는 동반자
분산의 단위는 원래 데이터 단위의 제곱이기 때문에, 직관적으로 해석하기 어렵다. 시험 점수의 분산이 200이라고 하면, 그것이 점수로 어느 정도의 흩어짐인지 감이 잡히지 않는다. 이 문제를 해결하기 위해 분산의 제곱근을 취한 것이 표준편차다. 위의 예에서 표준편차는 약 14.1점이 되어, 원래 단위로 해석할 수 있다.

계산과 해석의 간극
분산을 계산하는 것은 기계적이지만, 해석하는 것은 맥락에 달려 있다. 같은 표준편차라도, 평균이 높은 상황과 낮은 상황에서 의미가 다르다. 평균 수익률이 10퍼센트인 투자와 2퍼센트인 투자에서 표준편차 5퍼센트포인트의 무게는 같지 않다. 이 때문에 변동계수, 즉 표준편차를 평균으로 나눈 값을 함께 사용하기도 한다.
평균이 숨기는 것들
분산의 가치는 평균의 함정을 보완하는 데 있다. 평균만 보면, 완전히 다른 분포가 같은 숫자 뒤에 숨을 수 있다. 모든 사람의 소득이 비슷한 사회와 극소수가 대부분의 부를 차지하는 사회의 평균 소득이 같을 수 있다. 분산을 함께 보면, 이 두 상황이 질적으로 다르다는 것이 드러난다.
앤스콤의 사중주

통계학자 프랜시스 앤스콤은 평균, 분산, 상관계수가 모두 동일하지만 산점도의 모양은 완전히 다른 네 개의 데이터셋을 만들었다. 앤스콤의 사중주라 불리는 이 사례는, 요약 통계량만으로는 데이터의 실제 모습을 파악하기 어렵다는 것을 보여주는 유명한 예시다. 분산도 중요하지만, 분산만으로도 충분하지 않다는 것이다.
분포의 형태라는 추가 정보
같은 평균과 분산을 가진 분포도 형태가 다를 수 있다. 종 모양으로 대칭인 분포와 한쪽으로 길게 꼬리가 늘어진 분포는 분산이 같아도 체감이 다르다. 비대칭도와 첨도라는 추가적인 지표가 이런 형태 차이를 포착하며, 이들은 모두 평균과 분산이 포착하지 못하는 정보를 담고 있다.
분산이 중요한 이유
분산은 불확실성의 크기를 수치화한다. 기댓값이 동일한 두 투자 중 분산이 작은 것이 더 예측 가능하며, 분산이 큰 것은 극단적 결과를 만날 확률이 높다. 이 때문에 금융에서는 분산을 위험의 척도로 사용하며, 보험에서는 분산이 큰 위험에 더 높은 보험료를 책정한다.
표본 크기와 분산
표본의 평균은 표본이 커질수록 모집단의 평균에 가까워진다. 그런데 이 수렴의 속도를 결정하는 것이 바로 분산이다. 분산이 작으면 적은 표본으로도 평균이 안정되고, 분산이 크면 충분한 표본을 모으기 전까지 평균이 불안정하게 흔들린다. 이것은 통계적 추론의 기초가 되는 원리 중 하나다.
신뢰 구간이라는 응용
분산의 정보는 신뢰 구간의 폭을 결정한다. 신뢰 구간은 참값이 있을 법한 범위를 표시하는 것인데, 분산이 클수록 이 범위가 넓어진다. 여론조사에서 오차 범위라고 표시하는 것이 바로 이것이다. 오차 범위가 좁으면 조사 결과를 더 신뢰할 수 있고, 넓으면 주의가 필요하다.
일상 속의 분산 감각
분산이라는 용어를 명시적으로 사용하지 않더라도, 사람들은 분산에 해당하는 개념을 일상적으로 활용한다. 출퇴근 시간이 매일 비슷한 경로와 날마다 30분씩 차이 나는 경로 중 어느 것을 선택할지를 판단할 때, 사실상 분산을 고려하고 있는 것이다.
예측 가능성의 가치
평균이 약간 나쁘더라도 분산이 작은 것을 선호하는 경우가 있다. 약속 시간에 늦지 않으려면 평균 이동 시간이 짧은 경로보다, 이동 시간의 변동이 적은 경로가 더 안전할 수 있다. 이런 판단은 기댓값과 분산을 함께 고려하는 것이며, 기댓값만으로는 포착되지 않는 현실적 고려를 반영한다.
다른 세계를 보는 렌즈
같은 평균 뒤에 숨은 다른 세계를 발견하는 것, 이것이 분산이 제공하는 시야다. 평균이 중심을 알려준다면, 분산은 중심 주변의 풍경을 알려준다. 두 정보를 함께 가질 때, 데이터가 그리는 그림이 비로소 입체적이 된다. 숫자 하나가 아닌 숫자 둘, 평균과 분산을 함께 물을 때 더 정직한 대답이 돌아온다.