드디어 수학자들이 인과관계와 상관관계를 구분하는 법을 알아내다

| 2014. 12. 24. 05:59

평소에 이 주제에 대해 자처해서 사람들 앞에서 전도사 역할을 많이 했던지라 이와 같이 깔끔하게 개념이 정리되어 있는 글을 보니 번역욕을 느꼈다. 사실 새벽 5시에 잠에서 깼는데 마땅히 할 일도 없긴 하다. Quartz에 실린 원문(Mathematicians have finally figured out how to tell correlation from causation)은 다음 링크에서 볼 수 있다. 시작.


원인과 결과 사이의 매듭을 푸는 일은 지독하게도 어려운 작업이 될 수 있다.

평야에 한 마을이 있다고 가정해보자. 매일마다 그 마을에는 풍차가 돈다. 그리고 바람도 분다. 그 때문에 마을 사람들의 눈에 먼지가 들어가기도 한다. 때로는 이 일련의 사건들이 이런 식으로 엮여 보일 때가 있을 것이다. 풍차가 돌고, 바람이 분다. 마침내 우리의 논리적인 마을 사람들은 충분한 사례를 수집해 마을의 모든 풍차를 없애버리기로 결정하게 된다.

우리 같은 3자의 입장에서 이 가상의 마을 사람들의 논리가 어디서 잘못되었는지 판단하는 것은 쉬운 일이다. 바람이 풍차를 돌리는 것이지, 풍차가 바람을 만들어내는 것은 아니기 때문이다.

하지만 우리가 사는 실제 세계에서는 이보다 상관관계와 인과관계 사이의 구분이 미묘해서 그 차이를 구분하기 힘든 사례가 많다. 1999년에 나온 연구는 야간등(night-light, 침대 머리 맡에 두는 등)이 아이들을 근시안으로 만든다는 결론을 내리고 있다. 하지만 이 연구 결과는 후에 잘못된 것으로 판별되었다. 사실 근시안은 유전적인 영향을 받으며, 단지 근시안을 가진 부모들이 자식들의 방에 야간등을 더 높은 빈도로 설치하기 때문이었던 것이다.

다른 예로는 HDL 콜레스테롤에 관한 것이 있다. 소위 "좋은" 콜레스테롤로 알려진 이 콜레스테롤은 낮은 심장 질환 발병율과 관련이 있다고 알려져 있다. 하지만 HDL 콜레스테롤의 수치를 올리는 심장 질환 약은 효과가 없다는 결과가 나왔다. 왜일까? 나중에 밝혀진 바에 따르면, HDL 콜레스테롤은 건강한 심장이 만들어내는 일종의 부산물이지, 그 자체로서 건강한 심장을 만들어내는 것이 아니기 때문이다.

상관관계란 결정적인 설득력을 가지지 못한, 논리적으로 빈약한 관계다. 인과관계란 논리적으로 단단하고 반복적으로 실행 가능하며(actionable) 우리의 자연스러운 사고 흐름과 좀 더 그럴싸하게 정렬이 되는 관계다.

상관관계를 찾는 것은 쉽다. 심지어 가짜 상관관계(Spurious Correlations)라는 프로젝트는 공공 데이터를 기계적으로 분석해서 아무리 두 추세를 비교하는 것이 넌센스적이더라도 그 상관관계를 나타낸다. (역자 주: 아래의 데이터는 미국에서 과학, 우주, 기술 분야에 투자되는 예산과 목을 매어 질식시키는 방식의 자살 수 사이의 상관관계를 나타내는 그래프로 1999년부터 2009년까지 두 수치는 0.992의 상관관계를 보인다. 실제 Quartz 기사에는 메인 주의 이혼율과 미국의 마가린 섭취 사이의 상관관계 그래프가 예쁘게 그려져 있으나 내가 직접 그린 그래프가 아니므로 맥락에 맞는 그래프를 적당히 가져왔다.)

반면 인과관계를 규명하는 것인 매우 어려운 일이다. 하지만 이번에 새롭게 나온 논문에 기술된 방법론을 이용하면 인과관계를 확실히 규명해낼 수 있다. 암스테르담 대학교의 Joris Mooij 교수와 그의 동료들이 밝혀낸 이 방법의 가장 기본이 되는 직관은 간단하다. 만약 한 사건이 다른 사건에 영향을 준다면, 원인이 되는 사건의 무작위적인 노이즈가 결과가 되는 사건에도 반영이 된다는 것이다.

예를 들어, 고속도로의 통행량과 존(John)이라는 한 개인의 통근 시간 사이의 관계를 밝혀내려 한다고 가정하자. 존의 통근 시간과 고속도로의 통행량에는 당연히 어느 정도 무작위적인 변동이 있을 것이다. 존이 코너를 꺾기 전에 갑자기 신호등이 바뀌어 대략 5분 정도 손해를 보는 때도 있을 것이고, 때로는 고속도로가 빙판길이 되어 차량들의 속도가 전반적으로 떨어질 날도 있을 것이다.

하지만 여기서 중요한 점은 고속도로 통행량의 무작위적인 변동은 존의 통근 시간에 영향을 주지만, 존의 통근 시간의 무작위적인 변동은 통행량에 영향을 미치지 않는다는 것이다. 존의 통근 시간에서 고속도로 통행량의 변동 요소를 제거했을 때 남는 것(residue)들을 파악함으로써 우리는 통행량이 통근 시간을 변하게 하지, 그 반대는 아니라는 것을 증명할 수 있다.

여전히, 이 방법은 모든 상황에 적용되는 묘수는 아니다. 다른 모든 통계적인 방법론과 마찬가지로, 이 방법은 모든 경우에 100% 들어맞지는 않는다. 또한 이 방법은 가장 기본적인 원인과 결과 시나리오에만 적용이 될 수 있는데, 세 가지 사건이 관여되는 상황에서는 ㅡ 예를 들어 아이스크림 판매량과 익사라는 두 사건은 모두 더운 날씨라는 사건에 영향을 받게 된다 ㅡ 들어맞지 않는 기술이다.

그럼에도, 이것은 종종 이해하기 어려운 영역이 되는 통계학에 있어 중요한 한 걸음이다. 우리가 기념할 만한 이유(cause)인 ㅡ 맞다. 이건 인과관계(cause)다. ㅡ 것이다.