[AI타임스]김지완 사이냅소프트 본부장 “AI 문서 솔루션의 확장 가능성은 무궁무진”
“인공지능(AI) 시대에도 ‘문서’는 정보 기록 전달의 강력한 수단으로 여전히 높은 활용 가치를 가질 것입니다. 그리고 그 확장성은 계속 확장될 것으로 보입니다.”
사이냅소프트(대표 전경헌)는 대표적인 AI 디지털 문서 서비스형소프트웨어(SaaS) 전문 기업이다. 2000년 설립 이후 지금까지 문서 솔루션 레퍼런스를 쌓아왔다. 특히 지난해부터 ‘AI’를 결합, 문서 서비스의 효율을 한단계 끌어 올렸다.
김지완 사이냅소프트 기술혁신본부장은 “AI 문서 솔루션으로 사업 영역을 확대하는 과정에서, AI 기술 못지않게 갈수록 문서와 텍스트의 중요성을 체감하고 있다”라고 말했다.
회사의 목표는 다양한 솔루션으로 기술력을 검증, 대형언어모델(LLM) 기반 문서이해 시스템을 완성해 기업-금융-특허-법령-정책 등 전문 도메인 문서까지 모두 아우르는 것이다.
사이냅소프트는 ▲사이냅 문서필터 ▲사이냅 OCR(광학문자인식) ▲사이냅 도큐애널라이저 ▲사이냅 문서뷰어 ▲사이냅 PDF 포커스 등 서비스를 일반 및 기관, 기업에게 제공해 좋은 반응을 얻었다. GPT 스토어에 ‘사이냅 문서뷰어’와 챗GPT 기반 부동산 감정평가 분석 서비스 ‘이스테이트 AI’를 공개하기도 했다.
이중 사이냅 문서뷰어는 구글워크스페이스와 아마존웹서비스(AWS)에서 이미 80만명 이상 사용자를 확보했다. 국내에서는 중앙행정부를 비롯해 공사, 공단, 연구소, 초중고 홈페이지, 교육기관 등에 공급 중이다. 국내에서 가장 많이 사용되는 문서 뷰어다.
이스테이트 AI는 사이냅소프트의 최종 목표인 ‘도메인 확장’의 첫걸음이다. 국내 법원경매정보와 금융기관 등에서 인터넷에 공개한 감정평가서를 분석해 부동산 가치 평가, 경매 및 공매, 재산세 및 양도소득세 평가, 담보 가치 산정 및 대출 한도 설정, 공공사업, 재개발 및 재건축 사업 등에서 합리적인 의사결정을 지원하는 솔루션이다.
특히 AI 대화형 어시스턴트를 활용해 감정평가서를 쉽게 이해할 수 있도록 돕고 온라인 지도 시각화로 지역별 매물을 한눈에 파악할 수 있도록 했다.
김지완 본부장은 “문서 서비스가 지속적으로 확장되는 것은 문서가 여전히 정보 소통과 기록의 필수적 수단임을 보여준다”라며 “AI는 페이퍼리스가 트렌드로 자리 잡으며 전자 문서가 부쩍 늘어난 만큼, 텍스트 데이터를 쉽고 빠르게 활용할 수 있도록 도와주는 주요한 기술”이라고 설명했다.
이에 따라 문서 활용의 일환으로 학습데이터 변환까지 지원하고 있다. 올해 출시한 ‘사이냅 도큐애널라이저(DA)’가 대표적이다. 디지털 문서의 데이터화를 지원하는 솔루션으로, 한글(hwp)과 오피스 문서, PDF 등 일반 업무용 문서와 이미지 문서 등 다양한 비정형 문서의 포맷과 레이아웃, 속성 및 객체를 분석해 정보화한다.
또 표와 도형, 그래프와 같은 시각적 정보와 제목, 문단, 머리글 및 바닥글, 캡션, 각주, 페이지 번호와 같은 문서 구조 정보를 마크다운과 XML 형식의 정형 데이터로 전환한다. 분석 결과는 디지털 정보 자산 구축 및 LLM 학습, 검색증강생성(RAG) 등 AI 성능 강화에 이용할 수 있다. AI가 이해할 수 없는 비정형적인 디지털 문서를 AI가 이해할 수 있는 형태로 전환하는 것이다.
이는 현재 대부분의 기업의 수요가 있는 솔루션이다. AI 학습에 있어서 데이터 고갈 문제와 양질의 데이터가 핵심으로 자리 잡은 만큼, 기존에 존재하던 문서를 AI에 학습하려면 많은 시간과 비용이 소요되기 때문이다. 도큐애널라이저는 지난 5월 정식 출시, 단기간 만에 수요가 급증해 현재 공기업과 프로젝트를 진행 중이다.
사내에서 필요성을 느끼고 직접 활용하기 위해 개발했다는 점이 눈길을 끈다. 김 본부장은 “기존에는 사내에서 사이냅 필터와 사이냅 OCR PRO를 활용해 LLM 학습 데이터를 구축, RAG를 위한 청크 데이터를 생성했고 해당 과정에서 ‘통합 문서 데이터화 솔루션’의 필요성을 느끼게 됐다”라며 “이에 도큐애널라이저를 개발해 사내 개발 중인 AI의 성능을 끌어올리는 건 물론 제품 출시까지 이어질 수 있었다”라고 강조했다.
이어 “연내 출시를 목표로 현재 개발 중인 종합 문서 이해 시스템 ‘사이냅 DU LLM’이 도큐애널라이저의 첫 레퍼런스이자 사이냅소프트의 사업 목표를 가장 잘 보여주는 솔루션”이라고 전했다.
“데이터화 진행 후에도 프롬프트 엔지니어링, 인스트럭션 미세조정, 매개변수 미세조정 등 최적화 과정을 거쳐야만 LLM 기반 문서 활용이 가능해지는 만큼, ‘문서 활용’에 필요한 모든 과정과 기술력을 지원하는 종합 솔루션”이라고 소개했다.
사이냅 DU LLM은 산업통상자원부의 우수기업연구소육성사업(ATC+)을 계기로 개발을 시작했다. 도큐애널라이저, 문서뷰어로 데이터를 인식해 문서 분류 검색, 유사도 검사, 질의응답, 보고서 생성, 맞춤법 검사 등 기능까지 지원한다. 자체 미세조정 LLM ‘사이냅 DU’는 물론, 라마나 챗GPT, 하이퍼클로바X, 코난LLM 등 외부 모델과 연계해 활용할 수 있다.
이처럼 데이터의 수집-정제와 가공-학습-평가 및 검증-배포를 모두 지원, ‘모든 도메인에 적용 가능한 문서 솔루션’으로 거듭난다는 목표다.
DU LLM을 기반으로 하는 차기 서비스로 ‘전자공시 이해 기업 정보 서비스’를 개발 중이다. 금융감독원의 전자공시시스템(DART)에 공개되는 수많은 기업 공시 문서를 분석, AI와의 대화를 통해 사용자가 기업의 공시 정보를 편리하게 얻을 수 있도록 지원하는 서비스다.
(사진=사이냅소프트)
기업공시정보는 직접 탐색 열람하기에 높은 진입 장벽을 가지고 있다. 정보를 열람하더라도 필요 요소만 정리 및 이해하기에는 어려운 형식이다.
특히 요즘에는 이해관계자를 넘어 취업 준비생 및 기업 자체에 관심이 있는 일반 대중들의 니즈도 증가, 챗GPT를 기반으로 ‘자연어 기반 질의응답’을 통해 기업공시정보를 얻을 수 있는 서비스를 기획하고 있다.
이를 시작으로 향후 법률, 의료, 경제, 과학 등 다양한 분야로 사이냅 DU LLM의 활용 범위를 확장해 나갈 계획이라고 전했다.
김지완 본부장은 “지난해부터 생성 AI의 가능성을 믿고 여러 시도를 거친 결과, 빠르게 ‘미래지향적 문서 솔루션’을 개발할 수 있었다”라며 “데이터의 기본은 결국 텍스트라는 점을 잊지 않고 앞으로 더 많은 혁신 기술을 선보이겠다”라고 말했다.
한편, 사이냅소프트는 최근 코스닥 상장예비심사를 통과, 본격적인 기업공개(IPO) 준비 중이다.
장세민 기자 semim99@aitimes.com