부동산 감정평가 AI 사례 뜯어보기2

2024-08-12 | 개발 이야기, 사이냅 이야기

부동산 감정평가서 분석 AI 사례 뜯어보기

이전편에서 서비스 소개 (부동산 감정평가서 분석 AI 사례 뜯어보기 2)를 했습니다. 이런 서비스가 어떻게 만들어지는지 요소들을 뜯어봅시다.

부동산 감정평가 AI 같은 LLM 분석 서비스, 어떻게 만드는데요?

한 IT 서비스에 대한 이해는 각자의 역할에 따라 다릅니다.

• 사용자는 서비스의 목적과 UI를 이해해야 합니다.
• 마케터는 사용자를 이해하고, 서비스의 컨셉과 타겟 사용자층을 파악해야 합니다.
• 기획자는 마케터의 이해를 바탕으로, 프론트엔드 뒤에 숨겨진 개발 요소와 기능의 컨셉을 파악해야 합니다.
• 개발자는 기획자의 이해를 포함해, 기술 스택, 아키텍처, API, 그리고 데이터 흐름을 명확히 이해해야 합니다.

이번에 우리는 개발자가 아니라 기획자의 입장에서 뜯어볼 거에요. 일반적인 LLM 구성에 대한 자료를 참고하므로, 정확히 ‘부동산 감정평가 AI’를 설명하는 것은 아닙니다.

Foundation Model (LLM)은 시작이었다

이 AI 열풍의 태초에 챗GPT가 있었다.. 이렇게 말하면 뭐라고 할 개발자가 좀 있습니다. K-POP이 BTS랑 블랙핑크 뉴진스부터 시작한 건 아니라고요.

NLP를 해오던 개발자들은 구글의 트랜스포머 아키텍처 논문(Attention is All You Need)에 어텐션 메커니즘이 등장하면서 큰 전환점이 되었다고 말하겠죠. 그 분야는 AI 리서처의 몫으로 남기겠습니다.

일단 우리는 챗GPT가 뭔지 사용자 차원에서 압니다. 채팅으로 질문을 하면, 답을 줍니다. 답은 텍스트일 때도 있고, 코드일 때도 있고, 그림일 때도 있습니다.
마케터 차원에서도 뭔지 압니다. ‘사람 언어(자연어)’를 이해하고 ‘인간 언어(자연어)’로 답변을 ‘만들어내는’ AI(인공 지능). 그전까지 컴퓨터에게 일을 시키려면 컴퓨터 언어로(바이너리 010100001010)말하거나 컴퓨터와 합의된 언어(C++, 파이썬)로 말하고 답변도 그걸로 받았단 말이죠. 저는 이 서비스의 페르소나와 핵심기능을 ‘개발자가 아닌 사람이 직관적으로 AI를 사용할 수 있는 방법.’ 이라고 요약할 것 같아요.
기획자 차원에서는 이렇게 이해할 것 같습니다. 챗GPT는 서비스고, 그 기능에 들어가는 핵심 부품인 GPT는 LLM(대형언어모델)이죠. 이건 거대한 통계추론 모델이고. 수식을 코드화 해놓은 것이라고요. 그걸 열심히 훈련시켜놓으면 (학습, 피처 조정), 답변 (추론)의 정확도가 올라가는 모델이죠.

자 여기 아주 큰 데이터로 잘 훈련시켜 놓은 큰 모델이 있습니다. 다른 서비스들을 붙이기 전에 그 아래 거대한 LLM으로써 기초 모델 (Foundation Model)이라고 부르는 거죠. 근데 마케터나 기획자 차원의 이해만 가지고도 LLM을 채팅 형식의 서비스로 제공하는 것만 가지고는 한계점을 봐요.

“일을 할 수 있는 범위와 시킬 수 있는 범위가 아주 모호하군요.”

어디서부터 어디까지 학습시켰죠? 오픈AI와 구글이 학습시킨 데이터중에 제 서랍 속 일기장은 없습니다. 시중에 유통되지 않는 데이터에 대한 학습은 되어있지 않습니다. 우리 회사 서버 안에 있는 데이터를 바탕으로 답하진 않을 거 같네요.

채팅은 뭐든 될 수 있지만 아무것도 되지 않을 수 있죠. 계란으로 할 수 있는 요리는 무한한데 왜 우리는 계란 한 알 보다 비싼 비용을 주고 계란 찜이라는 제한적인 결과물을 식당에서 돈주고 살까요? 가능성과 활용범위만 보면 마트에서 계란을 사는 게 낫잖아요. 당연합니다. 요리는 전부 제 몫이 되잖아요. 용도를 제한하고 명확해질 수록 고객은 좁아지지만 한 고객에게 주는 편의는 커져요.

LLM 모델은 API로 끌어 쓰고, 우리는 서비스라는 커버를 씌울 게

그 후에 일어난 Boom!이 우리가 알고 있는 일반적인 서비스들로 이어졌습니다. 뤼튼이나 캐릭터 AI 같은 회사들은 AI에게 적절한 프롬프트를 미리 설계하여, 사용자가 무제한으로 컨트롤하는 대신에 좀 더 정형화된 선택 안에서 쉽게 사용할 수 있도록 합니다. 이를 통해 답변의 퀄리티를 일관되게 유지할 수 있습니다.

그런데 한 쪽의 문제는 해결된 것 같지만 다른 한 쪽의 한계는 존재하네요. 학습 데이터에 대한 문제요. 이건 답변의 범위와 정확도를 결정하는데요.

물론 이루다처럼 처음부터 모델의 데이터와 피처를 특정 목적으로 맞춘다면 좋겠지만요.

이루다: 인간관계에 대한 상호작용 대화 데이터를 기반으로 가상 인물과의 상호작용이 메인이 되는 챗봇. 10대와 20대에게 인기를 끌었습니다.

아, 우리 사이냅소프트의 부동산 감정평가 AI도 이런 부분이 있죠. ReAct(Resoning and Acting) 를 통해서 LLM 모델의 답변이 일관적이고 논리적일 수 있도록 프롬프트를 조정해요. 그런데 부동산 감정평가 AI는 부동산감정평가서를 분석 하잖아요. 감정평가서 자료는 어디에서 가져오죠? 챗GPT가 그 모든 감정평가서를 미리 학습했을까요?

부동산 등 전문성이 필요한 분석 AI 서비스: DB를 별도로 붙여줄게요.

쌓아둔 데이터 자산은 이렇게 활용됩니다.

그 감정평가서 자료는 법원평가정보와 신탁회사에서 가져옵니다. 다른 전문지식을 필요로하는 LLM 서비스도 마찬가지에요. 한 기업의 현금흐름표 데이터나, 신용평가회사의 일일물 채권 평가 데이터, 학교의 학사정보데이터, 이렇게 내부적으로 보유하고 있는 디지털 자산을 바탕으로 합니다.

사이냅소프트의 OCR Pro와 도큐애널라이저는 주로 인쇄된 문서나 자료부터 hwp나 ppt, pdf같은 문서를 디지털자산화 하는데 쓰이고 있습니다.

디지털자산화에 대한 이야기는 나중에 좀 더 다룰 기회가 있을 것 같아요. 요는 기업과 기관이 디지털 자산을 구축하고 나서, 이걸 어떻게 활용하냐죠.

2003년부터 준비하기 시작해서 특히 2011년, 전국 1만개의 학교 교육행정시스템 NEIS(나이스)에 데이터를 입력한다고 모든 초중고등학교 선생님들이 수십년 치 데이터를 수기로 나이스에 입력했었어요.

그 노동력이 투입되어서 인쇄된 문서나 수기로 된 문서를 서버의 SQL 데이터로 저장하면 그 다음부터는 무엇을 할 수 있었나요? 고생하긴 했지만 교무학사, 인사, 회계 등 전 교육행정업무를 전자적으로 연계 처리할 수 있게 되었습니다.

기업이나 기관이 보유한 정보는 디지털 문서 자산일 수도 있고, 기업 업무 시스템 (그룹웨어, 지식정보시스템, 기업 데이터베이스)의 정보일 수도 있습니다.

이 정보들은 분산되어 있고, 양이 방대하기 때문에 우리는 모두 읽고 일하는 대신 더 현명한 일처리 방식의 유혹에 빠집니다. 좋은 유혹이에요.
이 자산을 전부 논리적으로 분류한 다음에, 가장 효율적인 구조로 정리하고, 그 정리한 바를 검색할 수 있게 만들 수도 있습니다. 대신 분류가 꼼꼼하고 잘 되어있을수록 사용자는 그 데이터 베이스를 탐색하는 방법론에 대해서 그만큼 길고 복잡한 매뉴얼을 익혀야 합니다. 그리고 종류가 너무 많은 정보들은 이 매뉴얼을 영원히 만들어야 할 수도 있어요.
인류는 이 과정을 생성형 AI(LLM 모델)에게 외주 맡기기로 했습니다!

대신 한번 사용자로부터 요청이 때마다 DB를 봐야하는데. DB가 이렇게 큰데 자료를 어떻게 찾죠. 막막합니다. 그래서 우리는 벡터 데이터베이스라는 걸 사용하기로 합니다.

벡터화는 보이저엑스 남세동 대표님의 이 영상이 잘 설명해줄 거에요. 😊

벡터화 설명은 영상에 맡기고 간단히 말하면 다음과 같습니다.

문서 자산을 쪼개서 인덱스를 붙여줘요.
그리고 각 데이터가 가지는 의미가 무엇과 연관이 있는지 값을 붙여줍니다. 벡터화 한다고 해요.
벡터값을가진 데이터는 데이터간의 의미적 연관성을 계산할 수 있어요.

기존의 관계형 데이터베이스는 정형 데이터를 저장하고 검색하는 데 최적화되어 있지만, 벡터 데이터베이스는 비정형 데이터를 저장하고 검색하는 데 최적화되어 있습니다. 매뉴얼이 없이도 데이터와 데이터간의 연관성만으로 데이터간의 관계 구조가 생기고, 그걸 바탕으로 문서를 찾는게 가능한 거죠.

이 과정을 랭체인 같은 프레임워크로 임베딩 모델, 벡터 DB, LLM 모델을 연결시켜서 동작하게 만들 수 있어요. 그다음에 사용자들이 쓸 수 있게 서비스를 씌우고, 사용자에게 제공합니다.

전문 지식을 서버나 클라우드에 쌓아두고 있는 많은 경우, 이러한 방법을 활용해서 다양한 것을 기획해 볼 수 있어요.

기업 업무 시스템에 이미 SQL 등으로 저장되어있는 정보들이 일단 있고요. 서버에 hwp, ppt, pdf 등으로 저장되어있는 문서도 있겠죠. 이러한 자산들을 컴퓨터가 처리할 수 있는 언어로 일괄적으로 바꾸고. 인덱스를 붙여서 벡터 DB에 보관함으로써 컴퓨터가 읽을 수 있는 도서관 으로 만들어주는 겁니다.

어디에 활용할지도 이번 사례를 통해서 생각해 볼 수 있어요. 문서 간에는 한 문서 주제간의 버전 변경에 대한 비교를 할 수도 있고, 텍스트의 감정을 분석할 수도 있고, 감정평가서 처럼 포맷이 비슷하지만 내용은 다 다른 것에 대해서 다루는 문서들을 비교시키고, 문서를 찾아달라고 할 수도 있죠. 전문 용어를 보통 사람들의 언어로 해설해달라거나, 이 많은 전문 지식에 따르면 가장 추천할만한 지시사항은 무엇인지 관련 법령이나 내부 규정을 확인해 달라고 할 수도 있고요.

그렇게 활용 방안을 구체적으로 매번 사용자가 요구하지 못할테니, ReAcT를 써서 LLM Model이 벡터 DB를 찾아서 답변하는 과정과, 답변의 퀄리티를 높이는 제약들을 구성할 수 있습니다. 또 이번 사례로 LLM Model의 텍스트 탑변만 활용할 필요는 없다는 것을 알게 되었어요. 부동산 감정평가 AI에는 지도와 매물 정보를 매핑시켜주는 서비스를 포함하고 있었잖아요. 백엔드 개발이 더해져서 지도 정보 + 매핑 등 다른 서비스와 연결해서 LLM이 어떤 전체 서비스의 ‘파트’가 되게 할 수도 있습니다.

그렇게 부동산 감정평가 AI 의 등장

이렇게 다시 사이냅소프트의 부동산 감정평가 AI (Estate AI)로 돌아왔습니다.

챗봇 서비스가 사용자와 만나기 직전에 ReAct(Resoning and Acting) 가 있는 것과 없는 것, 챗봇 서비스 뒤에 벡터 DB가 붙어있는 것, 없는 것은 채팅창이 있는 웹페이지만 보는 사용자 입장에서는 구분하기 어려웠지만, 지금의 우리는 어떤 성능의 차이가 있는지 구분할 수 있습니다.

구성 요소를 기획자처럼 뜯어보는 과정 어떠셨나요?

보통 마케터로는 자사 서비스를 공부할 때 UX UI와 페르소나를 위주로 정리해보는데요.

웹페이지 뒤에 어떤 동작들이 있는지 마케터가 이해하면 좋은 점이 있습니다. AI 서비스들은 아직 모두가 인정하는 완성형 BM이 확정된 시기가 아닙니다. 늘 새로운 것이 나옵니다. 개발과 기획에 대해서 알수록 그럼 같은 기술로 다른 것들은 어떤 걸 만들 수 있을까? 하는 고민을 할 수 있거든요. AI B2C 서비스에 대해서도 그렇고, AI가 활용된 구축 프로젝트에서도 그렇습니다.

더 읽어보기

오늘의 글이 재밌으셨다면 사이냅소프트에서 해당 부분과 관련된 페이지들을 읽어보시면 좋을 것 같아요.

AI 시장 현황, AI 기술 트렌드 by Alex 시리즈

1. 시장알기: 2024 생성형 AI 시장 브리핑: 리서치 중이라면 여기요🔍📈

2. 기술 알기: AI 기술, ‘비개발자’가 알아야 할 트렌드 1

3.기술 알기: AI 기술, ‘비개발자’가 알아야 할 트렌드 2

4. 자사 알기: 부동산 감정평가 AI 사례 뜯어보기 1

5. 자사 알기: 부동산 감정평가 AI 사례 뜯어보기 2

Alex는 누구인가요?

사이냅소프트의 마케터 Alex는 Designthinking FT 기업과 AI 교육 기업에서 일하며 기술 커뮤니케이션을 해왔습니다. Alex는 개발자가 비즈니스에 대해, 비개발자가 개발에 대해 쉽게 이해할 수 있는 컨텐츠를 만들고 상호 커뮤니케이션에서 시너지가 나도록 노력합니다.

지금은 TIL(Today I Learned): 깃헙 대신 블로그에서 잔디를 심는 🌱🌱🌱 중인데요, 사이냅소프트웨어나 위 내용이 더 궁금하시다면 mkt@synapsoft.co.kr로 연락주세요.