[IT 비전공자의 OCR 소개 #2] 이미지 속 문자를 찾아내는 똑똑한 ‘AI-OCR’
안녕하세요, 사이냅소프트입니다.
아파트나 쇼핑몰 주차장에 들어갈 때 자동으로 차량번호를 인식하거나, 스마트폰으로 은행 계좌를 개설할 때 신분증을 촬영하면 저절로 정보가 입력되는 경험을 해보신 적 있으신가요?
한가지라도 경험해 보셨다면 여러분은 이미 OCR을 만난 것입니다. 이러한 서비스 뒤엔 OCR 기술이 자리 잡고 있기 때문입니다.
OCR(optical character recognition)은 광학적 문자 판독 장치로 빛을 이용해 문자를 판독하는 기술 또는 기기를 전반적으로 일컬어 부르는 용어입니다. 주로 영수증, 계약서, 책 표지 등 인쇄된 문서나 이미지에 포함된 글자를 인식하는 데 활용되고 있는 기술입니다.
오늘날 OCR은 인공지능과 접목하면서 국내외적으로 금융, 의료, 교육, 공공 등 다양한 분야에서 활용되고 있는데요. 미국의 시장조사업체 그랜드뷰리서치는 OCR 솔루션 시장이 오는 2025년까지 133억 8,000만 달러(약 16조 4,000억 원) 규모로 성장할 것이라고 전망했습니다.
4차 산업혁명 시대를 이끌어갈 핵심 솔루션으로 주목받고 있는 OCR은 어떤 과정을 통해 발전했으며 우리의 삶에 어떻게 스며들고 있는지 알아볼까요?
- 과거의 OCR은
OCR은 1928년 독일에서 문자 인식에 대한 특허가 나오면서 처음 등장했습니다.
해외에서는 영어 인식을 위주로 개발되었고 국내에는 90년대 초반 한글 인식 프로그램으로 처음 소개되었습니다. 연구소 등 일부 기업의 대형 컴퓨터에서만 기술적으로 수행이 가능했던 OCR은 개인 PC와 이미지 스캐너의 발달 이후 우편, 의료, 금융 분야로 활용 범위가 넓어지면서 우리 가까이 사용되기 시작했습니다.
하지만 문자의 자동인식을 위해 다방면으로 사용되며 승승장구하던 OCR이 인식률 문제로 잠시 주춤하던 때가 있었습니다. 폰트 종류, 이미지 왜곡, 스캔 해상도, 명암 등 다양한 변수에 따라 인식 오류가 발생했기 때문이죠.
인식률 문제를 해결하기 위한 방법은 지금까지도 계속해서 연구되고 있습니다. 어떠한 환경에서라도 문자를 정확히 찾아내고 분석하는 것이 OCR의 탄생 이유이자 근본적인 목적이기 때문에 이를 보완할 기술로 오늘날 ‘딥러닝 기반 OCR’이 주목받고 있습니다.
- 인공지능과 OCR의 만남
복잡한 문서나 그림을 분석하고 그 안에서 텍스트를 인식하는 것은 여전히 기술적 과제로 남아있습니다.
하지만 딥러닝 기반 OCR은 과거 OCR에 비해 다양한 폰트, 다양한 환경에서도 높은 문자 인식률과 정확도를 실현하고 있어 기술 활용 범위가 더욱 넓어졌습니다.
특히 종이 서류를 전자화하는 데 유용하게 활용되고 있는데요, 데이터를 영구적으로 보존하고 관리하기가 어려운 종이 서류를 전자화하기 위해 이미지 형태의 문서로 스캔하여 저장하는 분들이 많을 것입니다. 하지만 이미지나 PDF 형식의 문서는 텍스트 검색이 어려워 원하는 정보를 쉽게 찾을 수 없다는 불편함이 있습니다.
지금까지는 이러한 문제를 해결하기 위해 사람이 서류에 있는 데이터를 컴퓨터에 수작업으로 입력하여 전자화하는 단순하고 반복적인 업무를 진행해 왔습니다. 하지만 인공지능 OCR의 높은 인식률 덕분에 데이터만 추출이 가능해져 간편하게 종이 형태의 문서를 전자화할 수 있게 되었습니다.
OCR 기술을 활용해 종이 문서를 전자화하게 되면, 텍스트를 쉽게 검색, 편집할 수 있고 다른 형태로 변환하는 것이 가능해집니다. 이 모든 것을 가능하게 해주는 것이 OCR이기 때문에 효율적인 문서 관리를 위해 많은 기업에서 활용하고 있답니다.
- 사이냅소프트의 AI OCR
이러한 추세에 따라 ‘사이냅 OCR’을 찾는 기업들이 더욱더 많아지고 있는데요!
사이냅 OCR은 자체 딥러닝 기술 기반의 OCR 솔루션으로 이미지 내 텍스트를 인식하고 텍스트와 텍스트 위치정보, 패턴 정보를 제공합니다. 20년간 전자문서, 특히 한글 문서를 다뤄오면서 축적한 학습 데이터를 바탕으로 딥러닝 기술을 지속해서 개발하고 있어 높은 한글 인식률을 자랑합니다.
또한, 인식 결과에 대한 정규식 패턴 매칭을 지원해 민감한 개인정보를 마스킹 처리하여 제공하며, 템플릿 기반 서식 인식 도구를 활용해 주민등록증, 여권, 운전면허증과 같은 서식에서 데이터를 안전하게 추출할 수 있도록 도와줍니다.
텍스트 추출과 더불어 민감한 정보를 마스킹 처리해 주어 데이터 보안까지 지켜주는 사이냅 OCR! 많은 기업에서 관심을 가질 만하죠? 4차 산업혁명이 본격화됨에 따라 RPA, DLP, 웹 팩스 등과 같은 솔루션의 눈이 되어줄 사이냅 OCR의 수요는 앞으로 더욱 증가할 것으로 기대하고 있답니다.
+++
초창기 OCR부터 오늘날의 OCR까지 살펴본 이번 콘텐츠 어떠셨나요?
IT 비전공자의 OCR 소개 콘텐츠를 계기로 많은 분들이 OCR 기술을 이전보다 친숙하게 느끼셨기를 바라며 AI-OCR 소개를 마칩니다. 다음번에는 OCR이 어떤 분야와 어떤 솔루션에 활용될 수 있는지 보다 자세한 설명으로 돌아오겠습니다.
감사합니다.
솔루션 문의
Tel: 02-890-3410 |