기사 메일전송
ETRI, 사람처럼 문서 이해하는 AI 기술 개발
  • 김만석
  • 등록 2021-09-07 09:43:25

기사수정



국내 연구진이 사람처럼 똑똑하게 문서를 이해하고 원하는 정보를 찾을 수 있는 기술을 개발했다. 이로써 필요한 내용을 빠르게 파악해 업무 생산성을 높이고 정보 공유와 활용도를 대폭 높이는 데 큰 도움이 될 전망이다.

한국전자통신연구원(ETRI)은 오피스 문서로부터 사용자의 질문에 정답을 알려주고 두 문장이 같은 의미인지 이해하는 API ’2종을 개발했다고 밝혔다. 

ETRI는 인공지능 SW를 이용해 원하는 정보를 검색할 수 있을 뿐 아니라 사용자가 하는 질문에 정답과 근거까지 확인할 수 있는 기술을 개발했다. 

먼저 행정문서 질의응답(QA) API 기술은 딥러닝 언어모델을 이용해 단락과 표를 인식하여 정답 및 근거 문장을 인식하는 기술이다. 

예를 들어 ‘출장 경비가 100만 원 들 때, 결재를 어느 선까지 받아야 할까요?’라는 질문을 입력하면,‘100만 원 이하인 경우, 실장 전결’과 같은 사내 규정 정보를 담은 문서와 그 근거 부분까지 찾아 주는 셈이다.

본 기술은 공동연구기관인 한글과컴퓨터에서 블라인드 평가로 정확도를 측정했다. 

그 결과 단락을 대상으로 검색해 나온 상위 5개 결과의 정확도는 89.65%, 표를 대상으로 진행한 검색에서는 81.5%로 높은 정확도를 보였다.

또한, 패러프레이즈(Paraphrase) 인식 API는 사람처럼 똑똑하게 문서를 보고 다른 형태의 문장이 같은 뜻을 지니는지 파악하는 기술이다. 

앞서 나온 행정문서QA API와 다른 한국어 AI 개발에도 쓰일 수 있는 원천 기술이다.

인공지능과 딥러닝 기술은 사람과 달리 문장이 조금만 달라져도 의미 관계를 올바르게 인식하지 못하는 견고성(robustness) 문제가 있었다. 

예를 들어 ‘그는 빨간 자전거를 샀다.’와‘그가 산 자전거는 빨간색이다’라는 문장은 사람과 기계가 쉽게 구분하지만, ‘그는 빨간 자전거를 안 샀다.’라는 문장과는 구분을 잘하지 못한다. 

ETRI는 딥러닝 기술의 견고성 한계를 개선하여 다양한 유형의 문장에서 의미 관계를 인식하도록 본 기술을 개발했다. 

견고성 평가셋 대상 평가 결과, 96.63% 정확도를 보이며 기존 오픈소스 딥러닝 기술보다 성능을 크게 개선할 수 있었다.

개발된 기술은 표준인 XML 기반으로 문서 서식을 처리한다. 

현재는 한글 문서 대상으로만 서비스를 제공하지만, 개발 기술 자체는 워드, PDF 등 다른 문서에도 범용적으로 쓰일 수 있다. 

덕분에 사내 규정, 메뉴얼, 온라인 공고 등 다양한 문서와 분야에 적용될 전망이다.

연구진은 오피스 문서 서식이 다양하고 정형화되지 않아 인공지능 기술을 적용하기 어려웠지만, 견고성이 높은 데이터를 구축하고 무엇이 문제인지 판단하는 알고리즘 성능을 높이면서 본 성과를 낼 수 있었다고 밝혔다.

향후에는 GPT-3에 대응하여 언어이해와 생성을 동시에 학습한 딥러닝 언어모델을 개발하고 관련 기술을 공개하면서 AI 기술력을 고도화하고 플랫폼 개발에도 기여한다는 계획이다. 

ETRI 언어지능연구실 임준호 박사는 “본 기술로 한국어 인공지능 서비스 시장이 더욱 활성화되어 외산 인공지능 솔루션의 국내시장 잠식을 막고 국민들이 유용한 지식 정보를 쉽고 빠르게 습득할 수 있는데 도움이 되기를 기대한다.”라고 밝혔다.

한편 본 기술은 ETRI 공공 인공지능 오픈 API‧데이터 서비스 포털(https://aiopen.etri.re.kr/)에 공개되어 누구나 쉽게 이용할 수 있다.


0
  • 목록 바로가기
  • 인쇄


이전 기사 보기 다음 기사 보기
가장 많이 본 뉴스더보기
  1. 제천문화원, 내부 제보로 ‘보조금 부당 집행·직장 내 괴롭힘’ 의혹 폭발… 제천시는 민원 취하만 기다렸나 충북 제천문화원이 보조금 부당 집행·근무 불성실·직장 내 괴롭힘 의혹에 휩싸였다. 내부 기간제 근로자인 A 씨가 국민신문고를 통해 구체적 정황을 제출하며 공식적으로 문제를 제기했지만, 제천시가 이를 성의 없는 조사와 민원 취하 종용으로 무마하려 했다는 비판이 거세다.A 씨는 신고서에서 문화원 내부에서 ▲ 각종 사업 보...
  2. 【기자수첩】보조금은 눈먼 돈이 아니다…제천문화원 사태, 제천시는 무엇을 했나 보조금은 ‘지원금’이 아니다.혈세다. 그리고 그 혈세를 관리·감독할 책임은 지자체에 있다.최근 제천문화원과 관련해 국민신문고를 통해 제기된 내부 제보 내용은 단순한 회계 미숙이나 행정 착오의 수준을 넘어선다. 보조금 집행 이후 카드수수료를 제한 금액을 되돌려받았다는 의혹, 회의참석 수당과 행사 인건비가 특정 인...
  3. 중부소방서·드론전문의용소방대·CPR전문의용소방대·태화파출소 [뉴스21 통신=최세영 ]▲ 사진제공=중부소방서 드론전문의용소방대울산중부소방서 구조대와 드론전문의용소방대, CPR전문의용소방대, 태화파출소는 12월 13일(토) 오전 10시부터 오후 1시까지 태화연 호수공원 일대에서 겨울철 생활안전 및 화재예방 강화를 위한 합동 안전 캠페인을 성공적으로 마무리했다.이번 캠페인은 동절기 산불 위험 증...
  4. “We Serve” 실천 60년…울산라이온스클럽이 미래 100년을 향하다 [뉴스21 통신=최세영 ]▲ 사진제공=울산라이온스클럽2025년 12월 11일(목) 오후 6시 30분, 울산 보람컨벤션 3층에서 울산라이온스클럽 창립 60주년 기념식이 성대하게 개최됐다. 이번 행사에는 지역사회 인사뿐 아니라 울산 무궁화라이온스클럽을 포함한 30개 라이온스클럽의 회장단과 라이온들이 참석해 울산라이온스클럽의 60년 역사를 함께 축...
  5. [신간소개]악마의 코드넘버 새디즘 신은 나를 버렸으나, 나는 12미터의 종이 위에 나만의 신을 창조했다." 18세기 가장 위험한 작가, 마르키 드 사드의 충격적 실화 바탕 팩션! '사디즘(Sadism)'이라는 단어의 기원이 된 남자, 마르키 드 사드 백작. 그는 왜 평생을 감옥에 갇혀야 했으며, 잉크가 마르자 자신의 피를 뽑아 글을 써야만 했을까? 전작 《지명의 숨겨진 코드》...
  6. “염화칼슘에 가로수가 죽어간다”… 제천시,친환경 제설제 782톤’ 긴급 추가 확보 충북 제천시가 겨울철마다 반복돼 온 염화칼슘 과다 살포로 인한 도심 가로수 피해 논란 속에, 뒤늦게 친환경 제설제 782t을 추가 확보했다.환경 단체와 시의회의 강한 문제 제기가 이어지자, 시가 올해 겨울철 제설 정책을 전면 수정한 것이다.지난 9월 19일 열린 ‘제설제 과다 살포에 따른 가로수 피해 실태 간담회’에서는 “인도 ...
  7. 한국공인중개사협회 익산시지회, 청소년 주거안전 지킴이로 나서 한국공인중개사협회 익산시지회(지회장 김남철)가 지역 청소년의 주거 안전을 위한 공익 활동에 적극 나서며 지역사회에 모범적인 사회적 역할을 수행하고 있다.익산시지회는 사회 진출을 앞둔 고등학교 3학년 학생들을 대상으로 부동산 기초 이해 및 전세사기 예방교육을 실시했다. 이번 교육은 대학 진학, 자취, 독립 등으로 처음 주거 계...
역사왜곡
모바일 버전 바로가기