확률과 인지 · February 16, 2026

평균의 함정, 대표값이 숨기는 것들

평균은 숫자를 다루는 가장 익숙한 도구다. 시험 성적의 평균, 월급의 평균, 기온의 평균. 여러 수를 하나로 요약해주는 이 편리한 장치에 우리는 너무 쉽게 기대고, 그래서 너무 쉽게 속는다. 평균이라는 하나의 수가 전체를 대표한다고 믿는 순간, 그 수가 가려버리는 것들이 생긴다. 이 글은 대표값이 어디에서 힘을 발휘하고 어디에서 우리를 오도하는지를 살펴본다.

하나의 수가 전체를 말할 수 있을까

열 명이 한 방에 앉아 있다. 각자의 연봉이 3천만 원에서 5천만 원 사이에 고르게 퍼져 있다면, 평균 4천만 원이라는 수는 이 집단을 꽤 잘 요약한다. 그런데 이 방에 연봉 300억 원인 사람이 한 명 들어오면, 평균은 갑자기 30억 원 가까이로 뛰어오른다. 열한 명 가운데 열 명의 현실과 완전히 동떨어진 수가 이 집단의 대표값이 되는 것이다.

극단이 끌어당기는 무게중심

산술평균은 모든 값을 더해서 개수로 나눈 것이다. 이 계산 방식 자체가 극단값에 취약한 구조를 갖고 있다. 아주 크거나 아주 작은 값 하나가 전체 평균을 크게 끌어당길 수 있다. 이것은 평균의 결함이 아니라 성질이다. 다만 이 성질을 모르고 쓰면 결함처럼 작동한다. 국가의 1인당 소득이 높다는 말이 대다수 국민의 삶이 넉넉하다는 뜻이 아닌 이유가 여기에 있다. 소수의 극단적 부가 평균을 위로 끌어올리면, 그 수는 대다수의 현실과 유리된다.

중앙값이라는 대안

통계학은 이 문제를 일찍 인식했다. 그래서 중앙값이라는 다른 대표값을 마련해두었다. 값을 크기 순서대로 나열했을 때 한가운데에 놓이는 수가 중앙값이다. 아까의 예에서 연봉 300억 원인 사람이 들어와도, 중앙값은 크게 흔들리지 않는다. 극단값의 영향을 훨씬 덜 받기 때문이다. 부동산 가격이나 소득 분포처럼 한쪽으로 길게 꼬리가 늘어진 데이터에서는 평균보다 중앙값이 전체의 모습을 더 솔직하게 전달한다.

평균이 잘 작동하는 곳과 무너지는 곳

평균이 쓸모없다는 말이 아니다. 데이터가 대칭적으로 퍼져 있을 때, 극단값이 없거나 적을 때, 평균은 훌륭한 요약이다. 공장에서 나오는 부품의 길이, 반복된 실험의 측정값, 같은 조건 아래에서의 기온. 이런 데이터에서 평균은 전체를 정직하게 대표한다.

분포의 모양을 먼저 보라

문제는 데이터의 분포가 한쪽으로 치우쳐 있거나 극단값이 섞여 있을 때 생긴다. 그리고 현실 세계의 많은 데이터가 바로 그런 모양을 하고 있다. 소득, 자산, 도시의 인구, 웹사이트의 방문자 수. 이런 것들은 대부분 오른쪽으로 긴 꼬리를 가진다. 소수가 아주 큰 값을 갖고, 대다수는 그보다 훨씬 작은 값에 몰려 있다. 이런 분포에서 평균만 보면, 대다수의 현실을 놓친다.

심슨의 역설, 부분과 전체의 모순

평균의 함정은 더 교묘한 형태로도 나타난다. 두 집단 각각에서는 A가 B보다 나은데, 두 집단을 합치면 B가 A보다 나아 보이는 현상이 있다. 심슨의 역설이라 불리는 이 현상은, 집단의 크기 차이가 전체 평균을 뒤집을 수 있음을 보여준다. 부분의 진실과 전체의 진실이 반대 방향을 가리키는 이 상황은, 평균 하나에 기대어 판단하는 것이 얼마나 위험한지를 극적으로 드러낸다.

고대의 관측자들은 평균을 어떻게 다루었나

흥미로운 것은 고대의 하늘 관측자들이 이미 평균의 한계를 실감하고 있었다는 점이다. 달의 주기를 기록한 고대인들은 한 달의 길이가 매번 조금씩 다르다는 것을 알았다. 삭망월의 평균은 약 29.53일이지만, 실제 한 달의 길이는 29.27일에서 29.83일 사이를 오간다. 평균에만 의존했다면 달력은 금세 어긋났을 것이다.

관측과 보정의 반복

그래서 고대 달력의 설계자들은 평균에 기대되 평균만 믿지는 않았다. 그들은 윤달을 넣거나 날을 빼는 식으로 끊임없이 보정했다. 평균이라는 수의 편리함을 취하면서도, 현실의 편차를 무시하지 않는 태도였다. 이것은 오늘날 통계를 다루는 사람들에게도 유효한 교훈이다. 대표값은 출발점이지 도착점이 아니다.

별의 밝기와 등급이라는 비유

별의 밝기를 다루는 방식에서도 비슷한 지혜가 보인다. 고대 그리스의 히파르코스는 별을 여섯 등급으로 나누었는데, 이 등급 체계는 밝기의 산술적 평균이 아니라 비율에 기반한 것이었다. 가장 밝은 별과 가장 어두운 별 사이의 범위가 워낙 넓었기 때문에, 단순한 평균으로는 별의 밝기를 의미 있게 정리할 수 없었다. 범위가 넓은 데이터에서는 평균보다 비율이나 순서가 더 유용할 수 있다는 사실을, 고대의 관측자는 이미 실천하고 있었다.

숫자 하나 너머를 보는 습관

평균은 계산하기 쉽고 이해하기 쉬운 수다. 그 장점이 동시에 약점이 된다. 하나의 수로 전체를 요약했다는 안도감이, 전체의 모양을 직접 살펴보려는 의욕을 꺾기 때문이다. 평균이 4천만 원이라는 말을 들었을 때, 다음으로 물어야 할 것은 그 4천만 원 주변에 값들이 얼마나 퍼져 있는지다. 패턴을 찾으려는 본능이 하나의 수에서 의미를 읽어내려 할 때, 그 수가 무엇을 숨기고 있는지를 의심하는 것은 그 본능을 더 정직하게 쓰는 방법이다.

퍼짐을 함께 보라

평균 옆에는 늘 퍼짐의 정보가 따라다녀야 한다. 같은 평균 4천만 원이라도, 모두가 3천5백만에서 4천5백만 사이에 있는 집단과, 1천만에서 3억까지 흩어진 집단은 전혀 다른 세계다. 표준편차나 사분위 범위 같은 퍼짐의 척도가 있지만, 그 이름을 몰라도 좋다. 중요한 것은 평균이라는 하나의 수 뒤에 어떤 다양함이 숨어 있는지를 의식하는 습관이다. 대표값은 전체를 보여주는 창이 아니라, 전체를 탐색하기 위한 손잡이일 뿐이다. 손잡이를 잡고 문을 열었을 때 비로소 방 안의 풍경이 보인다.