상관과 인과, 함께 움직인다고 원인은 아니다
두 가지 현상이 함께 변할 때, 사람들은 본능적으로 하나가 다른 하나를 일으킨다고 생각하기 쉽다. 아이스크림 판매량과 익사 사고가 함께 늘어나면, 아이스크림이 익사를 유발한다는 결론을 내리고 싶은 충동을 느끼는 것이다. 물론 둘 다 여름이라는 공통 원인에 의해 올라갈 뿐이다. 상관과 인과의 구분은 통계학의 핵심 원칙이면서, 동시에 일상에서 가장 자주 위반되는 원칙이기도 하다.
상관이란 무엇인가

통계학에서 상관은 두 변수가 함께 변하는 경향을 수치로 나타낸 것이다. 한 변수가 커질 때 다른 변수도 커지면 양의 상관, 반대로 움직이면 음의 상관이라 한다. 상관계수는 이 경향의 강도를 나타내며, 보통 마이너스 1에서 플러스 1 사이의 값을 가진다.
함께 움직이는 수많은 것들
세상에는 상관관계를 보이는 것들이 무수히 많다. 국가의 초콜릿 소비량과 노벨상 수상자 수, 영화에 출연한 니콜라스 케이지의 작품 수와 수영장 익사 사고 수 같은 터무니없는 상관들이 실제 데이터에서 발견된다. 이런 사례들은 우스꽝스럽지만, 상관이 있다는 것만으로는 아무것도 증명되지 않는다는 점을 효과적으로 보여준다.
허위 상관의 구조
이런 허위 상관이 생기는 이유는 여러 가지다. 공통 원인이 있는 경우, 시간적 추세가 겹치는 경우, 또는 충분히 많은 변수 쌍을 탐색하면 순전한 우연으로도 높은 상관이 나타나는 경우가 있다. 마지막 경우는 다중 비교의 문제라 불리며, 대규모 데이터 분석에서 특히 주의해야 하는 함정이다.
인과라는 더 강한 주장
인과관계는 상관보다 훨씬 강한 주장이다. A가 B의 원인이라 함은, A를 변화시키면 B도 변한다는 것을 뜻한다. 단순히 함께 움직이는 것이 아니라, 하나가 다른 하나를 만들어낸다는 것이다. 이 주장을 뒷받침하려면 상관 이상의 증거가 필요하다.

실험이라는 금본위
인과를 확인하는 가장 강력한 방법은 무작위 대조 실험이다. 대상을 무작위로 두 그룹에 나누고, 한쪽에만 처치를 가한 뒤 결과를 비교하는 것이다. 무작위 배정이 핵심인데, 이것이 두 그룹 사이의 다른 모든 차이를 평균적으로 상쇄하기 때문이다. 차이가 발생하면, 그것은 처치에 의한 것이라고 결론 내릴 수 있다.
실험할 수 없는 경우
그러나 모든 것을 실험할 수 있는 것은 아니다. 흡연이 폐암을 유발하는지 확인하기 위해 무작위로 사람들에게 흡연을 시킬 수는 없다. 이런 경우에는 관찰 연구에 의존해야 하며, 교란 변수를 통제하는 통계적 기법을 동원해야 한다. 하지만 관찰 연구에서 인과를 추론하는 것은 언제나 실험보다 불확실하다.
교란 변수의 그늘
교란 변수란 원인으로 의심되는 변수와 결과 변수 모두에 영향을 미치는 제3의 변수다. 아이스크림과 익사의 예에서 기온이 바로 교란 변수다. 교란 변수를 놓치면, 실제로는 인과가 없는데 있는 것처럼 보이거나, 반대로 실제 인과를 가리는 결과가 나올 수 있다. 알려진 교란 변수를 통제하는 것은 가능하지만, 알지 못하는 교란 변수의 존재 가능성은 항상 남는다.
일상 속의 인과 오류
상관을 인과로 착각하는 오류는 학술 연구에서만 일어나는 것이 아니다. 뉴스 헤드라인은 “커피가 수명을 늘린다” 같은 인과적 표현을 즐겨 사용하지만, 그 근거가 되는 연구가 대부분 관찰 연구인 경우가 많다. 커피를 마시는 사람과 마시지 않는 사람은 생활 습관, 경제적 수준, 건강 관리 양상 등 여러 면에서 다를 수 있으며, 이런 차이가 수명의 차이를 만들 가능성을 배제하기 어렵다.
전후 관계의 함정
시간적 선후 관계도 인과의 충분조건이 아니다. A 다음에 B가 일어났다고 해서 A가 B를 일으킨 것은 아니다. 이것을 라틴어로 “포스트 혹 에르고 프롭터 혹”이라 하며, 이후이므로 그것 때문이라는 오류를 뜻한다. 특정 음식을 먹은 뒤 몸이 좋아졌다고 해서 그 음식이 원인이라고 단정할 수 없다. 자연적 회복, 위약 효과, 또는 평균으로의 회귀 등 다른 설명이 가능하기 때문이다.
편향된 표본이 만드는 인과 환상
성공한 기업인들이 공통적으로 아침 일찍 일어난다는 관찰에서, 일찍 일어나는 것이 성공의 원인이라는 결론을 내리는 것은 생존자 편향과 인과 오류가 결합된 사례다. 일찍 일어났지만 성공하지 못한 수많은 사람들은 표본에 포함되지 않았다. 보이는 것만으로 인과를 구성하면, 실재하지 않는 패턴을 사실로 받아들이게 된다.
구분의 기술
상관과 인과를 구분하는 것은 단순한 학문적 엄밀함이 아니라, 잘못된 판단을 피하기 위한 실용적 기술이다. 정책 결정, 의료 판단, 사업 전략 등 중요한 선택의 근거에 인과 오류가 섞이면, 그 결과는 자원의 낭비에서 인명 피해까지 이를 수 있다.
반사실적 질문
인과를 따질 때 유용한 질문은 반사실적 질문이다. 만약 A가 없었다면 B도 없었을까. 이 질문에 자신 있게 예라고 답할 수 있으려면, 단순한 상관 데이터 이상의 근거가 필요하다. 반사실적 사고는 일상의 판단에서도 적용할 수 있으며, 성급한 인과 추론을 늦추는 데 도움이 된다.
데이터 시대의 함정
대규모 데이터가 쏟아지는 시대에, 상관을 인과로 오인하는 위험은 줄어든 것이 아니라 오히려 커졌다. 데이터가 많아지면 허위 상관도 많아지기 때문이다. 상관은 인과를 함축하지 않는다는 원칙은 통계학 입문에서 가장 먼저 배우는 것 중 하나이지만, 가장 마지막까지 습관이 되지 않는 것이기도 하다. 함께 움직인다는 사실은 이야기의 시작일 뿐, 끝이 아니다.