반응형

컴퓨테이셔널 저널리즘  http://www.bloter.net/archives/276095


‘컴퓨테이셔널 저널리즘(Computational Journalism)’은 뉴스 콘텐츠의 생산 과정에도 컴퓨팅을 활용하는 저널리즘의 한 방식을 지칭한다. 컴퓨팅 능력의 향상에 따라 활용할 수 있는 영역이 넓어지면서 등장했다. 아직은 완벽히 정립된 개념은 아니다. 컴퓨테이셔널 저널리즘이 다루는 내용은 아직 완벽하게 언론사들이 활용하고 있다기보다는, 실험적으로 시도되고 있는 측면이 크다. 인간의 수많은 행동이 데이터로 기록되고, 알고리즘의 영향을 받아 행동하는 경향이 증가하는 추세다. 이 때문에 컴퓨테이셔널 저널리즘은 향후 성장가능성이 돋보이는 저널리즘의 한 분야다.


컴퓨테이셔널 저널리즘을 수행하려면 알고리즘에 대한 이해와 대규모 데이터 처리 능력이 필요하다.


알고리즘에 의한 스토리


‘알고리즘에 의한 스토리(story BY algorithm)’는 스포츠, 증권, 부동산 가격, 속보, 날씨 등의 분야에서 알고리즘이 직접 작성하는 뉴스를 말한다. 흔히 ‘로봇 저널리즘’으로 알려져 있다. 로봇 저널리즘은 컴퓨팅 기술에 기초해 소프트웨어를 활용하는 기사 작성법을 일컫는다. 실제 로봇이 펜을 쥐거나 키보드를 타이핑해 기사를 작성하는 건 아니고, 데이터를 바탕으로 소프트웨어가 뉴스를 작성하는 방식이다. 로봇 저널리즘은 캘리포니아대학교 정보컴퓨터과학과 제임스 미한 교수의 ‘테일스핀, 이야기를 쓰는 인터랙티브 프로그램’이라는 논문에서 처음 고안된 개념이다.


“백인식이 선발로 등판한 SK는 이태양이 나선 NC에게 6:8로 패하며 안방에서 승리를 내주었다. 경기의 승패에 결정적인 영향을 미친 키 플레이어는 손시헌이었다. 손시헌은 4회초 SK 고효준을 상대로 3점을 뽑아내어 팀의 승리에 결정적으로 기여했다. SK는 임창민을 끝까지 공략하지 못하며 안방에서 NC에 2점차 승리를 내주었다. 한편 오늘 NC에게 패한 SK는 4연패를 기록하며 수렁에 빠졌다.” – 실제로 로봇이 작성한 기사


국내에서는 서울대학교에서 본격적으로 알고리즘을 활용하는 기사 생산을 연구하고 있다. 로봇 저널리즘의 장점은 단연 ‘효율성’이다. 단순히 기사를 빠르게, 많이 쏟아내는 것을 넘어 속보 처리 등 단순업무에 가까운 뉴스 콘텐츠 제작에 들어가는 인력을 줄여 기자들이 더 좋은 콘텐츠를 만들 수 있게 돕는다.


알고리즘을 통해 발견한 스토리


스탠포드대학 컴퓨테이셔널 저널리즘 랩과 마샬 프로젝트는 미국 내 20개 주에서 교통경찰관이 운행 중인 차량을 무작위로 불러세우는 임의 차량 검문과 관련된 데이터 6천만건을 분석했다. 임의 검문임에도 백인 운전자의 차량을 멈춰세우는 비율보다 다른 인종 운전자의 차량을 멈춰 세우는 비율이 높다는 걸 검증했고, 이는 ‘차량 검문과 운전자 인종의 상관관계’라는 콘텐츠로 만들어졌다.


차량 임의 검문과 운전자의 인종 사이에 상관관계가 있다는 합리적 의심을 먼저 품지 않는다면 6천만건의 데이터는 아무 가치 없는 숫자에 불과했을 것이다. 숫자에 합리적 의심이 더해지면 가치를 지닌 데이터가 된다. ‘알고리즘을 통한 스토리 발견(story THROUGH algorithm)’이다. 흔히 ‘데이터 저널리즘’이라 부르는 영역이다.


보통 기자는 문제의식을 뼈대 삼아 인터뷰, 취재 등을 통해 내용을 보충한다. ‘알고리즘을 통한 스토리 발견’에서는 이 취재과정이 ‘데이터 수집→정제→패턴 발견 및 의미 도출’로 바뀐다. 알고리즘을 통한 스토리 발견은 기존 데이터 저널리즘에서 한발 더 나아간다. 뉴스 아이템을 수집하는 단계에서 기여할 수도 있다. 예컨대 인터넷 트래픽을 분석해 사건의 발견을 탐지할 수도 있다. 전 세계의 인터넷 사용량을 살펴보다가 갑자기 트래픽이 폭증하는 장소를 발견하고, 수없이 올라오는 이미지 등을 분석해 화재나 테러 등이 발생했다는 사실을 감지할 수도 있다. 이렇게 사건을 발견해 거의 실시간으로 언론사가 뉴스를 작성할 수도 있다.


알고리즘에 대한 스토리


알고리즘에 대한 스토리는 소재가 ‘알고리즘’인 뉴스를 말한다. 알고리즘은 일견 기계가 결정한다는 점에서 공평하고 정확할 것 같지만, 결국 알고리즘을 짜는 것도 사람이기 때문에 그 결과가 실수나 편견에서 벗어날 수는 없다.


비영리 탐사보도 매체 <프로퍼블리카>의 보도가 적절한 사례다. 미국 사교육업체 프린스턴리뷰는 지역마다 온라인 SAT(Scholastic Aptitude Test) 개인지도 패키지 가격을 다르게 판매했다. 가격 책정은 알고리즘에 의해 이뤄졌는데, 그러면서 아시아인들이 같은 강의를 훨씬 비싼 돈을 내면서 듣는 결과가 나왔다. <프로퍼블리카> 보도에 따르면 아시아인이 아닌 사람과 비교했을 때 아시아인은 높은 가격을 제시받을 확률이 거의 2배에 이르렀으며, 저소득층 지역 아시아인에게 가장 높은 가격을 부과한 사례도 발견됐다.


최근 이슈가 된 ‘필터 버블’(Filter Bubble)도 마찬가지다. 개인 맞춤 추천 알고리즘이 시야를 ‘거품’에 갇히게 했기 때문이다. 디지털 기술이 일상에 스며들면서 삶의 많은 부분이 알고리즘의 영향을 받는다. 이처럼 ‘알고리즘에 대한 스토리’는 공공의 문제가 될 수 있는 알고리즘을 이해하고 견제하는 것을 목표로 한다.

반응형
반응형

MS, 신경망 번역에 ‘한국어’ 추가…11개 언어 지원

마이크로소프트(MS)가 인공지능(AI) 기반으로 개발한 자사 신경망 기반 번역 서비스에 한국어를 추가했다. 최대 1만자까지 신경망 기술을 이용해 번역한다.


신경망 기반 번역은 단편적인 단어에 대한 직역이 아닌, 문장 전체의 맥락을 파악해 사람이 말하는 것처럼 자연스러운 번역이 특징이다. 구글과 네이버도 최근 신경망 기술을 이용한 번역 서비스인 ‘구글 번역’과 ‘파파고’를 선보였다. 구글 신경망 번역은 7가지 언어, 네이버 파파고는 한영 번역을 최대 200자 이내 번역한다.


MS는 지난해 11월 처음으로 신경망 기반 번역 서비스를 공개했다. 당시 영어, 독일어, 아랍어, 중국어, 일본어를 포함한 10가지 언어를 지원했다. 이번에 한국어가 추가하면서 총 11가지 언어를 번역한다.


신경망 번역 원리

신경망 번역 원리


MS 신경망 기반 번역은 인공지능과 머신러닝 알고리즘을 통해 언어를 학습한다. 총 두 단계에 걸쳐 번역한다. 먼저, 번역 대상이 되는 문장을 인공지능으로 분석해, 해당 문자에 사용된 언어가 어떤 문맥을 가졌는지 파악한다. 그다음 문장에 맞는 단어를 골라 뜻을 배치하고 번역한다. 단순히 해당 문장 안에 단어가 몇 개 들어가 있고, 각 단어의 뜻을 기계적으로 번역해서 보여주는 게 아니라 문장 전체 의미를 파악해서 이에 가장 잘 맞는 뜻을 가진 단어를 골라 번역한다.


예를 들어, ‘개가 매우 행복해 보인다. 그 개는 강아지 6마리를 낳았다’라는 문장을 프랑스인과 미국인이 MS 신경망 번역을 이용해 문장을 번역했다 치자. 미국인에게는 ‘The dog looks very happy. The dog bore 6 puppies’라고, 프랑스인에게는 ‘La chienne a l’air très heureux. La chienne portait 6 chiots’라고 보여준다.


프랑스어에서는 똑같은 단어라도 모든 명사에 남성형과 여성형으로 성이 나뉜다. 이 성별이 무엇이냐에 따라 뒤따라오는 동사 형태가 미묘하게 다르다. 여기서 신경망 분석이 빛을 발한다. 신경망 분석은 ‘그 개는 강아지 6마리를 낳았다’라는 문장의 의미를 해석해 ‘그 개 성별은 암컷이다’라고 추론했다. 불어로 ‘개’는 남성형 명사로 ‘le chine’으로 표현하지만, 이 문장에서는 암컷이라고 생각해 여성 형태의 ‘La chienne’를 쓴다. 흐름을 파악해서 자연스러운 번역을 제공한다.


이날 MS는 언어의 의도(Intent)와 실체(Entity)를 파악하는 자연어 처리 서비스 ‘루이스(LUIS, Language Understanding Intelligent Service)’도 이제 한국어를 지원한다고 밝혔다.


루이스는 챗봇과 앱, 그리고 다양한 서비스와 결합해 사용자의 의도를 파악하고, 이에 맞는 서비스를 제공한다. 예를 들어 ‘파리행 티켓을 예약해줘’라는 문장을 입력하면, 루이스와 결합한 서비스 플랫폼에서 파리행 티켓을 예약할 수 있는 웹사이트를 불러온다.


MS 측은 “이미 IT, 제조, 교통, 물류, 쇼핑, 미디어 등 다양한 분야의 국내 많은 기업이 마이크로소프트 루이스 기반의 AI 챗봇과 앱을 통해 서비스를 준비하고 있다”라며 “파트너와 함께 클라우드 기반의 AI 서비스를 활발히 개발 중으로, 이번 루이스의 한국어 지원을 통해 스마트 스피커, ARS 부가 서비스, 상품 예약 및 조회 등 다양한 한국어 애플리케이션들이 개발될 것으로 기대된다”라고 밝혔다.







.

반응형
반응형
강화 학습(Reinforcement learning)기계 학습이 다루는 문제 의 하나로, 어떤 환경 안에서 정의된 에이전트가 현재의 상태를 인식하여, 선택 가능한 행동들 중 보상을 최대화하는 행동 혹은 행동 순서를 선택하는 방법이다.

개요
환경은 일반적으로 유한상태 마르코프 결정 프로세스(MDP)로 표현할 수 있다. 이런 관점에서 강화 학습 알고리즘은 동적 계획법과 깊은 연관이 있다. MDP에서 상태 전이 확률(state transition probabilities)와 포상은 확률에 따른 값일 수도 있고, 이미 결정되어 있는 값일 수도 있다.

알고리즘



응용
강화 학습이 원하지 않는 행동을 명시적으로 수정하는 지도 학습과 다른 점은 온라인 수행에 중심을 두고 있다는 점이다. 강화 학습은 아직 조사되지 않는 영역을 탐험하는 것과 이미 알고 있는 지식을 이용하는 것의 균형을 잡는 것이다. 이 탐험과 이용 사이에 있는 트레이드오프는 Multi-armed bandit과 같은 문제에서 알아 볼 수 있다.


반응형

+ Recent posts