<숫자에 약한 사람들을 위한 통계학 수업>, 데이비드 스피겔할터 지음, 권혜승/김영훈 옮김, 웅진지식하우스, 2020
‘호랑이는 죽어서 가죽을 남기고, 사람은 죽어서 이름을 남기는’ 시대에서 ‘사람은 사는 동안 데이터 흔적을 남기는’ 시대에 살고 있다. 온라인 상에서의 활동은 물론 오프라인의 생활동선까지 데이터로 남는다. 대중교통 이용 동선과 무엇을 먹고, 마시고, 어디에서 무엇을 사는지도 데이터로 남는다. 온라인 상에서 클릭한 광고와 SNS에서 남긴 ‘좋아요’와 ‘댓글’도 데이터로 남아 나의 취향을 파악해 쇼핑을 제안하기도 한다.
빅데이터, AI, 5G 기술의 발달로 최근 각광을 받고 있는 데이터 과학 분야는 우리가 남긴 어마어마한 데이터를 바탕으로 우리의 행동을 빠르고 비교적 높은 확률로 예측할 수 있게 해준다. 데이터 과학 시대에는 데이터를 다루는 능력도 필요하지만, 데이터를 이해하는 능력도 반드시 필요하다고 한다.
<숫자에 약한 사람들을 위한 통계학 수업>도 현대 사회에 꼭 필요한 능력으로 데이터 문해력을 꼽고, 통계적 방법으로 문제를 해결하는 PPDAC모형을 소개하고 있다. 저자는 일상에서 마주하는 통계를 통해 더 많은 지식을 얻고 싶은 일반인을 위해 통계학 입문서로 이 책을 집필했다고 한다.
복잡한 수학적 풀이과정보다는 호기심을 자극하는 수수께끼 같은 질문의 답을 찾아는 과정을 통해 통계적 기법을 알려준다. 가령’ 타이타닉에서 가장 운이 좋은 생존자는 누구였을까?’, ‘난소암 검사는 효과가 있는가”, ‘유방암 수술 이후 보조 치료를 추가로 받았을 때 몇 퍼센트의 생존율 향상을 기대해도 좋을까?, ‘과속 단속 카메라가 교통사고를 감소시키는가?’와 같은 질문이다.
좋은 데이터 시각화 자료의 4가지 특징
1. 믿을 만한 정보를 담고 있다.
2. 유의미한 패턴이 뚜렷이 나타나도록 디자인되었다.
3. 겉모습이 관심을 끌면서도, 정직하고 명확하고 통찰력 있게 데이터를 전달한다.
4. 필요하다면 추가적인 탐색이 가능하다.(78쪽)
데이터 전달의 첫 번째 규칙은 입을 다무는 것이다.
그래야 전달의 대상자인 당신의 청중(정치인이든 전문가이든
일반인이든)에 대해 알 수 있다.
우리는 그들의 불가피한 한계와 오해를 이해해야 하며,
현학적이고 싶은 마음, 똑똑해 보이고 싶은 마음,
세세한 부분까지 설명해주고 싶은 마음과 맞서 싸워야 한다.
전달의 두 번째 규칙은 당신이 무엇을 이루고자 하는지 아는 것이다.(81쪽)
저자는 알고리즘의 원리에 대해서도 설명하고, 알고리즘이 갖는 잠재적 문제들도 지적한다.알고리즘이 수행하는 작업은 크게 ‘분류’와 ‘예측’으로 나뉘는데 분류는 식별 또는 지도학습이라고도 하며, ‘우리가 어떤 종류의 상황에 직면하고 있는지’ 알려주는 것이고, 예측은 앞으로 ‘무슨 일이 일어날지’ 알려준다고 한다. 다만 알고리즘에는 잠재적 문제들도 있음을 지적한다. 알고리즘 규칙이 변화에 매우 민감해 예측이 빗나갈 가능성이 있고, 통계적 변동성을 고려하지 못하고, 내재적 편향을 가질 수 있으며, 투명성이 부족한 문제가 대표적이라 한다.
이 책은 적은 표본, 구조적 편향, 일반화의 어려움 같은 문제들을 강조한다.
알고리즘의 문제점을 살펴보면,
오늘날 많은 데이터 덕분에 표본 크기에 관한 걱정은 줄어들었지만,
다른 문제들이 더 나빠지는 경향이 있었다.
게다가 우리는 알고리즘의 추론 과정을 설명하라는 새로운 문제에 부딪혔다.
지나치게 많은 데이터는 건실하고 책임감 있는
결론을 생산하는 데 있어 어려움을 증가시킨다.
알고리즘을 만들 때 겸손함은 매우 중요한 덕목 중 하나다.(208쪽)
과학적 발표에서 ‘유의미한 것’과 ‘유의미하지 않은 것’을 나누는 문턱값으로 사용되고, 심지어 ‘유의미한 것’이 증명된 것으로 간주하는 P값에 대한 오해도 바로잡도록 한다. P값을 넘지 않았다는 것은 ‘영가설(귀무가설)이 참이라는 것이 아니라 영가설과 양립할 수 있다는 뜻’이라고 한다. P값에 대한 미국통계학회가 합의한 6가지 원칙도 소개한다.
이 단순한 이분법은 ‘유의미하지 않다’를 잘못 해석할 수 있다.
유의미하지 않은 P값은 데이터가 영가설과 양립할 수 있다는 뜻이지
영가설이 참이라는 뜻은 아니다.
어떤 범죄자가 범죄 현장에 있었다는 직접적 증거가 없다고 해서
그가 결백하다는 뜻은 아닌 것처럼 말이다.(328쪽)
P값에 대한 여섯 가지 원칙
1. P값은 데이터가 명시된 통계 모형과 얼마나 양립할 수 없는지를 나타낸다.
2. P값은 가설이 참일 확률 또는 그 데이터가 오로지 무작위적 우연에 의해
만들어졌을 확률을 측정하지 않는다.
3. 과학적 결론과 사업, 정책 결정들은 P값이 특정 문턱값을 넘는지 여부에만 기반해서는 안 된다.
4. 적절한 추론은 완전한 발표와 투명성을 요구한다.
5. P값이나 통계적 유의성은 어떤 영향의 크기나 결과의
중요성을 측정하지 않는다.
6. P값 자체는 어떤 모형이나 가설에 관한 좋은 증거의 척도를 제공하지 못한다.
예를 들어, 0.05에 가까운 P값은 그것만으로는
영가설에 반하는 약한 증거만 제공할 뿐이다.(326~331쪽)
<숫자에 약한 사람들을 위한 통계학>은 통계에 대한 몰이해와 오용으로 결과가 잘못 해석되고, 과장되어 알려짐으로써 혼란을 초래할 수 있음을 환기시키며, 통계적 주장에 맞닥뜨렸을 때 점검해야 하는 10가지 질문과 통계를 다룰 때의 10가지 규칙을 소개한다. 통계학을 다루는 사람은 물론 데이터 과학 시대를 살고 있는 우리 모두에게 필요한 내용이다. 데이터도 아는 만큼 보이는 것 같다.
통계적 주장에 맞닥뜨렸을 때 점검해야 하는 10가지 질문
1. 그 연구는 얼마나 엄밀하게 수행되었는가?(…)
2. 결과에서 통계적 불확실성/신뢰성은 무엇인가?(…)
3. 요약은 적절한다?(…)
4. 이야기의 출처는 얼마나 믿을 만한가?(…)
5. 이야기를 장황하게 늘어놓고 있는가?(…)
6. 들려주지 않은 것은 무엇인가?(…)
7. 그 주장이 알려진 것들과 얼마나 잘 들어맞는가?(…)
8. 보인 것에 대한 설명으로 무엇이 주장되는가?(…)
9. 그 이야기는 청중과 얼마나 연관 있는가?(…)
10. 주장된 영향은 중요한가?(405~407쪽)
효과적인 통계학 실행을 위한 10가지 규칙
1. 통계적 방법은 데이터가 과학적 질문에 답하게 해야 한다.
특정 기법에 초점을 두기보다 왜 이것을 하는지를 질문하자.
2. 신호는 항상 잡음과 함께 나타난다.
그 두 가지를 구분하려는 노력이 통계학을 흥미롭게 만든다.
변동성은 피할 수 없고, 확률 모형은 추상적 개념으로 유용하다.
3. 미리, 정말로 미리 계획하라.
확증적 연구에선 연구자의 자유도를 피하기 위해 사전 설명서를 사용하자.
4. 데이터의 질에 신경 써라. 모든 것은 데이터에 달려 있다.
5. 통계 분석은 계산 그 이상이다.
이유를 알지 못한 채, 그저 데이터를 공식에 집어넣거나
소프트웨어를 실행하는 건 바람직하지 않다.
6. 단순함을 유지하라.
중요한 전달은 가능한 기초적이어야 한다.
괜한 복잡한 모형화로 기량을 뽐내지 말자.
7. 변동성 평가를 제공하라.
오차범위가 일반적으로 주장되는 것보다 크다는 경고도 함께.
8. 가정을 점검하라. 그리고 이것이 언제 가능하지 않았는지 밝히자.
9. 가능하다면 재현하라. 또는 다른 사람들이 그렇게 하도록 권장하자.
10. 분석이 재생산될 수 있게 만들어라.
다른 사람들이 당신의 데이터와 코드를 얻을 수 있어야 한다.(417~418쪽)
* 해당 도서는 출판사로부터 무상으로 제공받았으며, 제 주관에 따라 솔직하게 작성했습니다.