데이터과학자들은 일부 인풋에 대한 해답이 어떤 것이어야 하는지, 그리고 결과로 나온 해답이 이런 실측자료에 가까운지 측정하는 방법을 규정한 뒤, 실측자료에 가장 근접하는 알고리즘을 선택한다.
추천 알고리즘 작업은 내게 무엇보다 한 가지를 보여주었다.
어떤 것이 옳은 대답인지 정해주는 실측자료가 없고, 알고리즘의 결과가 '어느 정도' 이성적으로 보이는 한, 우리 인간들은 그 결과를 설명하는 이야기를 지어낼 수 있다는 것이다.
지금 우리는 데이터의 시대에 살고 있습니다.
어디서 무엇을 하는지, 먹는지...개인의 거의 모든 정보를 파악할 수 있습니다.
이는 개인의 프라이버시 침해와 편의, 양날의 검과 같습니다.
이런 데이터를 통해 추측한 결과는 모두 옳을까요?
그렇지 않습니다.
진정으로 데이터 속에 숨겨져 있는 고객의 니즈를 찾아내는 방법도 있지만, 반대로 '이럴 것이다'라고 가정한 후 데이터를 찾는 경우도 왕왕 있습니다.
이럴 경우, 데이터는 단지 추측에 대한 합리적인 근거에 불과할 뿐입니다.
지금 보고 있는 것들이 진실인지, 그렇지 않은지 다시 한번 확인할 필요가 있습니다.
많은 설문조사에 대한 결과를 보면서 문득 든 생각이였습니다.
얼마전 AI 챗봇 이루다 사건은 많은 논란이 되었습니다. AI 를 만들기 위해서는 많은 데이터를 학습해야 하는데 그 과정에서 개인정보나 비속어 등이 제대로 걸러지지 않아 이루다와의 대화에서 그대로 나오기도 했네요. 또, AI 가 지속적으로 학습이 된다는 점에 착안하여 유저들은 이루다와 나쁜 쪽으로 대화를 이끌어 나가면서 이에 대한 상세 방법들을 공유하기도 했습니다. AI 기술이 발달하면서 이미 많은 서비스에 적용이 되고 있는데 이루다 사건은 AI 의 기술 뿐만 아니라 윤리적인 측면에서도 고려할 요소들이 있음을 보여주었습니다.
'무자비한 알고리즘' 에서는 AI 에 있어서 데이터나 알고리즘으로 인한 문제점과 이를 해결하기 위한 방안들에 대해 설명하고 있습니다.
'인공지능' 이라는 단어를 들으면 SF 소설이나 영화에 나오는 것처럼 인간과 똑같이 생각하고 판단을 내리는 기계가 떠오릅니다. 하지만 특정 분야에 적합한 인공지능을 만들기 위해서는 실생활에서 사용된 수많은 사례들을 수집해서 이러이러한 경우에는 이러이러한 값을 내도록 수학적으로 계산하는 것이네요. 그래서 데이터가 많으면 많을수록 다양한 사례들이 있는 만큼 결과가 정확한 것처럼 보이고, 오류 데이터가 섞여 있다면 잘못된 결과를 낼 가능성도 높아집니다.
책에서 언급하고 있는 사례들을 보면 의학에 사용되는 AI 의 경우 의학 및 IT 기술이 갖춰져 있고 정확한 데이터를 확보할 수 있는 나라는 대부분 미국이나 유럽 등이기 때문에 백인 데이터가 많을 수밖에 없어서 아시안이나 흑인에 대해서는 인식률이 떨어진다고 합니다. 성별만 남녀를 다르게 하고 동일한 웹사이트들을 차례대로 방문하도록 했는데 남자와 여자에게는 각각 다른 광고를 보여주며, 그 광고에는 성 역할에 대한 고정관념이 들어가 있네요.
아마존에서는 AI 를 이용해 수많은 입사지원서를 분석해 1차로 걸러내었는데 아마존에 근무하고 있는 사람들의 개인 프로필과 성과를 학습한만큼 아마존에 적합한 인재를 찾을 수 있어 합리적으로 보입니다. 하지만 기존 직원들 구성에는 이미 특정 인종과 성별에 편항되어 있는 만큼 AI 도 동일한 기준으로 필터링해 논란이 되었고 결국 철회를 하였다고 합니다. 컴퓨터는 대규모의 데이터를 빠르게 처리할 수 있는 만큼 많은 데이터를 다루는 AI 를 업무에 활용하는 경우가 늘어나고 있는데 이제는 AI 로 인해 나타나는 윤리적인 문제에 대한 논의도 필요한것 같아요.
산업혁명은 인간의 삶을 크게 바꾸어 놓았는데 AI 가 발전할수록 변화의 속도와 범위는 훨씬 커질 것입니다. 많은 기업들이 완전 자율 주행이 가능한 자동차를 개발하는 과정에서 사고가 일어날 가능성이 있을때 자율 주행 자동차가 어떤 결정을 내리도록 할 것인지는 사람들에게 AI 에 대한 경각심을 일깨우는 좋은 사례 같아요. AI 의 긍정적인 면 외에 부정적인 측면에서 어떤 문제점들이 있는지 읽어볼 수 있어서 도움이 되었습니다.
알파고가 바둑의 최강자를 꺽을 때 많은 사람들의 관심이 쏠렸는데 대체로 그 시점부터 인공지능에 대해 걱정을 많아지기 시작하였다. 영화 속에서만 보던 장면들이 이제 현실로 다가오는 것은 아닌가 우려의 목소리가 나오게 되었고 IT 업종에 일하고 있기에 주변 사람들로부터 질문을 많이 받았다. 하지만 나 역시 전문가가 아니었기에 더군다나 미래를 예측한다는 것은 불가능에 가까운 일이기에 적절한 대답을 할 수 없었다. 하지만 인공지능을 만드는 주체도 인간이기에 인간에게 해를 끼치지 않도록 설계를 하면 되지 않을까라고 생각을 하였다. 그렇지만 머신 러닝이나 딥러닝 통해서 인공지능이 스스로 학습을 하다 보면 인간이 원하지 않은 방향으로 인공지능이 발전할 수도 있다. 사람은 학교에서 윤리를 배우고 이성으로 행동하지만 인공지능은 그렇지 못할 것이다. 빅데이터를 기반으로 정해진 알고리즘으로 의사 결정을 하게 될 것이다. 빅데이터를 배울 때 많이 활용되는 타이타닉 생존자의 예를 들면 상식적으로 생각해보면 생존 비율에 대해 쉽게 이해를 할 수 있다. 책에서 말하는 대로 기계적으로 데이터만으로 활용해본다면 살아남을 확률이 높은 사람들을 동일한 상황이 발생했을 때 구조해 주려고 할지 모른다. 아니면 확률적으로 계산해서 생존 확률이 임계치 이하이므로 구조할 필요가 없다고 판단하고 구조를 포기할지도 모른다. 하지만 인생사에는 기적이라는 게 있는데 인공지능이 그런 것에 대해 고려를 할 수는 없을 것이다.
조금 생각을 돌려보면 우리가 맛 집이라고 생각하는 식당들도 빈익빈 부익부 현상이 생긴다. 맛 집으로 한번 뜨기 시작하면 계속 많은 손님들이 찾을 것이고 그렇다 보면 한번 맛 집은 계속 맛 집이 될 것이다. 인공지능은 철저히 데이터에 의해서만 판단하게 될 것인데 인간의 이성이 전혀 개입되지 않기에 돌발변수가 고려되지 않는다면 뻔한 결과가 나올 것이다. 빅데이터를 이용하여 범죄 예방이나 교통흐름을 파악하고 신호체계를 개선하는 분야에 많이 활용할 수 있을 것이다. 범죄 예방에 활용하기 위해서 우범 지역을 조사하고 인종별, 나이별, 소득 순 등을 분류하여 범죄 집단을 분류할 수 있을 것이다. 대부분의 책에서 그렇게 말하듯이 소득수준이 낮거나 흑인일수록 범죄율이 높게 나타난다고 할 것이다. 데이터만 가지고 판단하다 보니 이런 오류를 범할 것인데 인공지능에 윤리를 가르칠 수 없기에 알고리즘을 개발하는 사람이 그런 부분까지 잘 고려해야 할 것이다.
책으로 돌아와서 알고리즘에 대해 말하자만 일반인들은 알고리즘이라는 용어가 다소 생소할 수도 있는데 좀 더 이해하기 쉽게 표현했더라면 어떨까 하는 아쉬움이 남는다. 책들 읽는 독자들이 알고리즘을 개발하는 전문가가 아니라면 인공지능 알고리즘이 어떤 문제가 생길 수 있다거나 혹은 어떤 윤리에 대해 고려를 해야 하는지에 대해 언급을 하면 좋지 않았을까 싶다. 굳이 어려운 용어를 써가며 이해하기 어렵게 만들 필요가 없었을 것 같다는 아쉬움이 남는다.
올해 초에 '알고리즘'에 대하여 특집기사를 읽었었다. 평소 사용하는 소셜미디어에서 좋아할만한 컨텐츠가 추천되도록 짜여진 알고리즘으로 인해 사고와 포용의 틀이 얼마나 협소해질 수 있는지를 알게 해준 기사였다. 조금은 섬찟한 기사였다. 내가 좋아해서 선택한 컨텐츠라고 생각했는데 어느 순간 알고리즘에 의해 선택된 컨텐츠만을 보고 비슷한 컨텐츠만 찾아 보게된다니 말이다. 누군가 만들어 놓은 틀에 갇힌 느낌이었다. 이러한 알고리즘에 대해 좀더 알고 싶어 '무자비한 알고리즘'을 읽게 되었다.
첫번째 한줄평을 남겨주세요.