PDF, 이메일(eml 및 mbox), 마이크로소프트의 워드, 엑셀, 파워포인트, 일반 텍스트 파일, 웹페이지(html), CSV, 이미지 파일 등을 백라이트 도구로 업로드하면 파일 형식에 상관없이 새로운 PDF 파일로 전환한다. 그 뒤 PDF 파일을 분석해 인물, 기관, 위치 등의 내용을 식별해 각 기준에 따라 문서들을 검색해 찾을 수 있도록 처리한다. 또한 전환된 PDF 파일 내에 취재 노트 형식의 댓글을 달 수 있고 이를 검색할 수도 있다. 취재 과정에서 대용량의 파일을 수집한 뒤 이를 제대로 관리하는 데 어려움을 겪는 저널리스트들을 위한 도구다. 백라이트 사례로 제시된 존 F. 케네디 대통령 암살과 관련해 현재 3만787개의 문서들이 올라와 있으며, 이 문서들은 인물, 기관, 위치 등을 기준으로 정렬해 보여주며 검색도 가능하다. 물론 영어만 지원하고 한국어는 지원하지 않는다.
정부가 코로나19로 인한 위기 경보를 최고 수준인 ‘심각’ 단계로 상향했다. 나날이 심각해지는 상황을 보면서 국민의 한 사람으로서 걱정도 많아진다. 하지만 정부와 묵묵히 일하고 있는 현장 인력, 사태에 냉철하게 대응하고 있는 전문가들, 성숙한 시민들을 보면 이 사태가 생각보다는 빠르게 해결될 것이라고 기대한다. 이 해결 과정에서 수많은 공식 문서, 통계, 자료 등이 제공되고 있다. 이를 활용한 취재 기록, 분석 문서, 보도 기사 등도 셀 수 없이 많이 생성되고 있다. 세계보건기구가 공식적으로 경고한 ‘인포데믹(infodemic)’도 있다. 이 기록들은 사태가 종료된 후 향후 유사 사태 발생 시 효율적 대응을 위한 중요한 자료들이다.
이러한 자료들을 종합적으로 접하고 수집할 수 있는 직업군은 저널리스트다. 기록하는 역할을 부여 받았기 때문이다. 하지만 하루하루 급박하게 돌아가는 상황이기에 이 기록들을 제대로 관리하기는 어렵다. 아무리 직업적 사명 의식이 있더라도 매일의 상황을 전달하면서 관련한 자료들을 체계적으로 정리하기는 사실 불가능하다. 일단 쌓아 놓더라도 문서의 양이 사람의 인지 범위를 넘어설 가능성이 크다. 백라이트는 이러한 문제의 해결을 돕기 위한 도구다. 심각한 상황에서 사태 종결 이후를 얘기하는 것은 성급하지만, 코로나19 관련 기록을 어떻게 남길 것인가에 대한 준비도 필요하다. 종결된 이후에 시작하면 늦기 때문이다.
백라이트에서 활용하고 있는 기술의 수준은 우리나라에서도 충분히 구현 가능하다. 백라이트만이 답인 것도 아니다. 인물, 기관, 위치 추출은 자연어 처리 기반 사건(event) 인식 기술의 기본이다. 코로나19와 관련해 충분히 확보한 자료를 기술의 힘을 빌려 사람이 맥락을 추려낼 수 있도록 도우면 된다. 사회적 재난의 대응 경험을 사회적 자산으로 남기는 역할은 언론이 가장 잘 해낼 수 있는 일 중 하나이자 의무다. 기술의 힘을 빌려 그 일을 더욱 잘해내도록 도울 필요가 있다. 가능한 곳에서 준비를 시작하면 좋겠다. 몇몇 곳이 떠오른다.
오세욱 한국언론진흥재단 선임연구위원의 전체기사 보기Copyright @2004 한국기자협회. All rights reserved.