UPDATED. 2020-05-28 15:40 (목)
코로나 혼란 속 법칙을 찾아라
코로나 혼란 속 법칙을 찾아라
  • 이경락 ragie77@bflysoft.com
  • 승인 2020.05.22 11:40
  • 댓글 0
이 기사를 공유합니다

[이경락의 In DATA] 신종 감염병 위기, 빅데이터 분석으로 해법 모색중
필수조건은 데이터 공개…개인 정보보호·인권문제 등 역효과 고려돼야
코로나19 자가격리 위반자가 착용하게 된 ‘안심밴드’. 뉴시스
코로나19 자가격리 위반자가 착용하게 된 ‘안심밴드’. 뉴시스

[더피알=이경락] 코로나19(COVID-19)의 세계적 팬데믹((Pandemic)이 여전히 기승을 부리고 있다. 현존 인류가 겪어보지 못했던 미증유의 감염증으로 인해 보건·의료 분야뿐 아니라, 경제에까지 엄청난 파급 효과가 나타나고 있다.

그동안 이른바 서구 선진국으로 알려졌던 국가들의 의료 위기 대응 민낯이 드러났고, 많은 인류가 고통과 두려움에 신음하고 있다. 또 누구도 상상하지 못했던 원유의 마이너스 가격을 목격했다. 일각에서는 지구의 또 다른 생명들이 빠른 생태 회복을 보이면서 자연의 소중함을 체감하기도 했다. 이런 이유들로 인해 많은 전문가들이 코로나19 이후에 급격한 사회 변화를 예측하고 있다.

백신 가능성·거리두기 효용성 체크

글로벌 팬데믹의 혼란 속에서도 법칙을 찾아가려는 시도들이 계속 이어졌는데, 바로 빅데이터 분야이다. 빅데이터는 코로나19의 병증 분석이나 방역 도구로써 그 효용성이 부각되고 있다. 엄청난 의료 데이터에서 규칙성을 찾아내 원인을 분석하고, 환자들의 동선을 파악해 방역 대책을 세우며, 유전자 구조를 빠르게 분석해 백신의 가능성을 탐색한다.

예를 들어 미국의 네바다주에 있는 IDEA(Rensselaer Institute for Data Exploration and Applications)와 같은 연구기관은 슈퍼컴퓨터를 통해 바이러스를 모델링하고, 팬데믹과 관련된 소셜미디어 반응을 추적하기도 한다. 처음 질병이 유행했던 중국의 소셜미디어 반응을 미국과 비교함으로써 징후 및 증상을 인식하고, 병원 자원의 가용성을 체크할 수 있기 때문이다.

문재인 대통령이 경기 성남시 한국파스퇴르연구소 연구 시설에서 김승택 연구팀장에게 코로나19 대응 약물 재창출 과정 및 데이터 분석에 대한 설명을 듣는 모습. (자료사진) 뉴시스
문재인 대통령이 경기 성남시 한국파스퇴르연구소 연구 시설에서 김승택 연구팀장에게 코로나19 대응 약물 재창출 과정 및 데이터 분석에 대한 설명을 듣는 모습. (자료사진) 뉴시스

또 빅데이터는 사회적 거리두기의 효용성을 확인하는 데도 이용된다. 지금 전세계의 다양한 소스에서 지속적이고 실시간적으로 코로나19를 추적한 데이터들이 공유되고 있는데, 이러한 데이터 속에는 지역별로 인구 이동에 대한 GPS 분석에서 얻은 것들도 있다.

일례로 특정 지역의 디지털 온도계 변화를 관찰했을 때, 사회적 거리두기를 했을 경우 평균 온도가 하락한 것을 관측할 수 있었다. 방역 당국은 이를 통해서 사회적 거리두기의 효용성을 확인할 수 있으며, 나아가 특정 지역의 유행성을 예측하기도 한다.

빅데이터 활용을 위해서는 필수적인 조건들이 구축돼야 한다. 바로 데이터의 공개(Open Data)다. 헤지채터(HedgeChatter)라는 뉴욕의 한 SaaS(서비스형 소프트웨어) 스타트업은 AI를 이용해 코로나 바이러스의 전 지구적 영역을 추정하는 모델을 구축했다. 그들은 중국이 공개한 데이터를 RNN 신경망 모델을 사용해 1000만 번 시뮬레이션했다.

그에 따르면 초기 감염 후 15일 만에 사망자가 급증한다고 예측됐는데, 이는 중국이 데이터를 공개했기 때문에 가능한 분석이었다. 즉 투명한 데이터를 조건 없이 풀면서 코로나19의 해법이 보다 빠르게 구축될 수 있는 셈이다.

실제로 세계 각국의 보건의료 당국은 코로나19와 관련해 다양한 데이터셋을 공개하고 있다. 다만 이 형태가 아직 오픈 빅데이터 플랫폼의 형태로 진화되지 못한 것은 아쉽다.

조심해야 할 날카로움

코로나19 국면에서 활용되는 빅데이터에 대해 기대만 존재하는 것이 아니다. 효용성 문제나 개인정보의 보호 측면에서 문제가 존재한다. 앞서 언급한 것처럼 수백만 인터넷 및 휴대전화 사용자의 위치 데이터를 활용해 바이러스 확산 양상과 사회적 거리두기 상황을 파악하는 것은 사람들의 움직임과 행동 패턴을 발견하는 매우 효과적인 방법이다.

실제로 미국의 모바일 광고회사는 질병통제예방센터, 주 및 지방 정부와 협력해 휴대전화 위치 데이터를 기반으로 주민들의 이동 변화를 분석하고 있으며, 구글과 페이스북 역시 사회적 거리두기 등과 관련된 정보를 연구진들에게 제공하고 있다.

그러나 이러한 방법들이 완벽하다고는 할 수 없다. 과거 서아프리카에서 에볼라 바이러스 전염병과 관련해 지역의 휴대전화 사용자의 통화기록을 확보해 분석한 바 있는데, 이동성에 초점을 맞춘 잘못된 전제에서 비롯된 것이었다.

에볼라의 경우 병을 돌보는 과정이나 장례식 등이 전염의 주요 요인이었지, 이동을 통한 간염 확산이 아니었기 때문이다. 또한 농촌 지역에서의 낮은 휴대전화 및 소셜미디어 이용률도 데이터를 왜곡시킬 수 있고, 도시에서의 위치정보는 건물의 높이 변수를 측정할 수 없다는 한계도 있다.

개인정보 보호의 문제도 나타날 수 있다. 우리나라에서도 확진자 동선 공개가 누군가의 사생활을 특정하는 정보로 활용돼 문제가 된 바 있는데, 정보의 무분별한 공개가 개인의 인권을 심각하게 침해할 수도 있다. 특히 안심밴드처럼 격리대상자 전용 위치추적 밴드가 아무런 사회적 논의 없이 운용되는 것도 우려할 만하다.

빅데이터는 코로나19라는 그동안 겪어보지 못한 풍랑을 극복할 수 있는 최신 모터이다. 다만 이것을 최선으로 사용하기 위해서는 모터의 사용법을 선원 모두에게 알려주고, 모터의 날카로운 날개를 예의 주시할 필요가 있다.



댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.