UPDATED. 2018-05-22 23:28 (화)
통계의 오류, 여론조사도 예외없다
통계의 오류, 여론조사도 예외없다
  • 박형재 기자 news34567@the-pr.co.kr
  • 승인 2015.06.17 10:39
  • 댓글 0
이 기사를 공유합니다

“의도성 갖고 충분히 오염시킬 수 있어…언론보도 맹신 말아야”

빅데이터 오염이 새로운 사회문제로 떠오르고 있다. 돈을 받고 페이스북 ‘좋아요’를 올려주거나 구매후기를 가장한 홍보성 글들이 빅데이터의 신뢰도를 갉아먹고 있다. 각종 통계와 설문조사도 예외가 아니다. 숫자로 무장한 일부 통계들은 이해관계에 따라 조작되거나 치명적인 함정을 숨기고 있다.

① 사고파는 ‘좋아요’…빅데이터 오염 (←클릭)
② 통계의 오류, 여론조사도 예외없다

[더피알=박형재 기자] ‘숫자는 거짓말을 하지 않는다’고 하지만 숫자를 세는 사람이 거짓말을 한다면? 당연히 결과값은 크게 달라질 것이다.

실제 통계, 여론조사 등 객관성이 필수인 분야에서도 ‘조작’은 이뤄진다. 한 대형 여론조사기관에서 검수원으로 일했던 D씨는 기자를 만나 “조사업계 종사자들조차 통계는 믿을 게 못된다고 생각한다”고 털어놨다.


가장 큰 문제점은 설문의 객관성 확보가 어렵다는 점이다. 대면설문의 경우 조사원이 직접 질문지를 들고 시민을 만나는데 사람들이 설문에 잘 응하지 않으면 지인, 가족 등에게 설문을 받아 조사한 것처럼 꾸미는 경우가 많다.

조사원들이 표본에 벗어난 대상자를 상대로 설문을 하는 경우도 비일비재하다. 예컨대 음식점 만족도 평가를 진행할 때 해당 식당에서 먹고 난 사람에게 조사해야 하는데, 빨리 일을 마치기 위해 조사 지역을 벗어나 설문을 수집한다는 것이다. 또한 대면설문시 이름, 전화번호를 적어오는데 전화번호가 결번이거나, 연구용역 비용이 적을 경우 검수를 아예 안하는 경우도 있다.

D씨는 “알바로 고용하는 조사원들은 전문성이 부족하고 할당량 채우기에 급급하다. 의심되는 설문지는 검수에서 잡아내는데 용역비가 적을 때는 그냥 빼먹고 간다”며 “정확한 조사가 되려면 데이터가 클린(clean)해야 하는데 기초부터 이미 데이터는 더럽혀져 있다. 형식적 요식행위로 여론조사를 진행하는 경우도 많다”고 말했다.

빅데이터의 진실성 논란은 주변에서도 쉽게 찾아볼 수 있다. 지난 3월 경남에서는 무상급식 여론조사 결과를 두고 논란이 일었다. 한 여론조사기관이 ‘전면 무상급식’에 대한 생각을 물은 결과 찬성 34%, 반대 63%로 나타났다. 홍준표 경남도지사에 유리한 결과였다.

그러자 야당은 반론을 제기했다. 여론조사 때 ‘정부지원을 늘려서라도 소득에 관계없이 전면 무상급식을 하는 게 옳으냐’라고 물었는데 ‘지원을 늘려서’라는 문구가 설문을 왜곡했다는 것이다.

지난 1월 경남대 지방자치연구소가 실시한 무상급식 여론조사는 50·60대 장년층의 의견을 과도하게 반영해 객관성을 잃었다는 지적이다. 연구소는 여론조사에서 무상급식 반대 77.7%(1618명), 찬성 17.2%(359명)로 나타났다고 발표했으나, 응답자 중 학부모세대인 20~40대는 29.5%에 불과했다. 반면 50대는 24.1%, 60대 이상이 46.3%를 차지했다.

매년 언론에 회자되는 ‘변리사 연봉 6억원’ 기사도 대표적인 통계 왜곡 사례다. ‘국세청 부가가치세 납부현황’을 근거로 변리사가 매년 6억원을 버는 최고의 직업이란 내용이지만, 변리사의 경우 변리사사무소의 전체 수입이 통계에 잡히기 때문에 1인당 연봉은 1억원 수준에 불과하다.

망가진 나침반을 든 여행

빅데이터는 방대한 자료를 분석해 사람들의 행동패턴을 읽어 앞날을 예측하는 기술이다. 기업들은 이미 빅데이터를 활용한 서비스를 내놓고 있다.

온라인 쇼핑몰 아마존은 고객의 서적 구매 이력에 근거해 다른 추천도서를 내놓는 것으로 유명하다. 검색 업체 구글이 전 세계 독감 유행 상황을 짚어낼 수 있는 것도 빅데이터를 활용했기 때문이다.

만일 빅데이터가 오염되면 문제는 심각해진다. 불완전한 데이터를 근거로 미래전략을 수립하는 것은 망가진 나침반을 들고 여행하는 것과 다름없기 때문이다.

실증적인 사례가 ‘9호선’ 사태다. 서울지하철 9호선은 2000년 민간업체 수요예측 조사에서 1일 38만명이 이용할 것으로 예상됐다. 그러나 개통을 4년 앞둔 2005년 정부출연기관인 한국교통연구원 조사에서는 24만명으로 관측됐다. 당시는 용인·김해 경전철 등이 수요예측을 잘못해 ‘애물단지’란 비난을 받던 시절이었다. 24만명 분석에 따라 다른 노선보다 적은 전동차량을 배치했으나 실제 이용객은 38만명이나 됐다.

▲ 지하철 9호선은 수요예측 실패로 전동차량이 적게 배치돼 출근시간대 혼잡도가 최대 240%에 달한다. 가양역 승강장에 꽉 들어찬 승객들. ⓒ뉴시스

홍보·마케팅을 목적으로 한 데이터 조작 역시 공공연한 비밀이다. 바이럴마케팅이란 이름 아래 브랜드 홍보를 위해 블로그 후기 조작, 악성 댓글 밀어내기, 경쟁사 비방 글 작성 등이 음지에서 이뤄진다. 포털사이트에 올라온 맛집 후기의 80%가 거짓이란 분석도 있다.

빅데이터 오염에 대해 홍보인들은 어떻게 생각하고 있을까? 모 중소기업 E홍보팀장은 “빅데이터 오염은 홍보인의 숙명”이라고 주장했다. 그는 “어뷰징이 문제있다는 건 알지만 남들 다 하는데 나만 안 할 수는 없다”며 “홍보가 곧 매출인 현실에서 빅데이터 왜곡은 불가피하다”고 말했다.

빅데이터 분석업체 F이사는 “빅데이터 오염보다 이를 활용하는 방법론이 문제”라는 의견을 내놨다. 빅데이터는 모든 데이터를 끌어오는 만큼 당연히 노이즈데이터가 포함되며, 이를 어떻게 걸러내고 원하는 데이터를 뽑아낼지가 관건이란 지적이다.

그는 “홍보인들은 입으로 빅데이터를 외치면서도 여전히 크리에이티브와 직관이 더 중요하다는 인식에 사로잡혀 있다”며 “직관도 데이터의 바탕 위에 발휘돼야 더 빛날 수 있다. 기업에서는 제대로 된 데이터 분석가를 육성하는 등 투자가 필요하다. 하다못해 엑셀 교육이라도 제대로 해야 한다”고 꼬집었다.

김위근 한국언론진흥재단 선임연구위원은 “빅데이터는 알고리즘이 어떻게 짜여있느냐에 따라 의도성을 갖고 충분히 오염시킬 수 있다”며 “통계, 설문이나 언론 보도를 무조건 맹신해서는 안 된다. 특히 불완전한 통계를 근거로 미래전략을 수립하는 것은 위험하다”고 조언했다.

빅데이터는 무조건 진실을 말하지 않는다. 그러나 근거가 빠진 진실은 공허하다. 부실하거나 입맛에 맞게 만들어진 통계는 신뢰를 무너뜨린다. 통계와 숫자를 내세우면 진실이 되기 쉬운 현실에 살아가려면 ‘속지 않을’ 안목이 필요하다.

통계학자 게르트 보스바흐는 <통계 속 숫자의 거짓말>에서 통계를 대하는 기본원칙들을 제시했다. 구체적으로 ▲기존 자료를 입수해 현 상황과 비교하고 ▲근거자료를 요청하며 ▲실제로 파악 가능한 수치인지 검토하고 ▲자료 출처를 확인해 이해관계가 얽혀있는지 살펴야 한다.

또한 다섯 가지 입버릇에서도 벗어나야 한다. “시간이 없어”, “다들 그렇다고 하니까 맞을거야”, “어차피 내 선에서는 확인 못해”, “구체적인 숫자를 제시한 걸 보니 확실할거야”, “계속 이 추세로 나아가면 그런 결론이 나올거야”가 그것이다.

 



댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.