문서의 구조를 이해하는 OCR - LLM을 위한 Document AI 기술

Business

Dec 5

2023/12/05   |  3 mins

박은정 (Upstage CSO)
LLM을 조직에서 제대로 개발, 활용하고자 하는 분
디지털 자산화가 필요한 이유와 그 과정 및 방법이 궁금하신 분
많은 조직에서 다양하게 활용되고 있는 LLM(large language model, 대형 언어 모델)을 제대로 개발, 활용하기 위해 ‘디지털 자산화’가 필요한 이유와 그 과정 및 방법에 대해 알아보세요.
✔️ LLM 개발 및 활용에 디지털 자산화가 필수적인 이유
✔️ LLM 개발 및 활용을 위한 디지털 자산화 과정
✔️ LLM을 위한 디지털 자산화 방법들

LLM 개발 및 활용에 디지털 자산화가 필수적인 이유

작년 이맘때부터 LLM(large language model, 대형언어모델)에 대한 관심이 유독 뜨겁습니다. ChatGPT 등 상용 모델뿐 아니라 LLaMA 등 오픈소스 모델을 통해 널리 알려진 바와 같이 LLM은 학술적 의미를 넘어 다양한 상업적 활용의 가능성을 보여주었는데요. 특히, 이름에도 드러나 있듯 언어, 즉 텍스트 형태의 데이터를 처리하는 수준이 매우 뛰어납니다.

그렇기에 많은 조직은 LLM을 다양하게 활용하려고 노력하고 있습니다. 하지만 세상의 많은 문서는 텍스트만 담기보다는 시각적 정보를 담은 복잡한 형태의 문서이기에 어려움을 겪게 되죠. 학계에서는 이런 복잡한 문서를 VRD(visually rich document)로 부르는데, 표, 그래프, 문단의 종속관계 등 복잡한 시각적 정보가 포함되어, 텍스트만 추출해서는 문서에 포함된 정보의 양을 상당량 잃게 돼서 의도한 결과를 얻기 어렵습니다. 따라서 LLM을 제대로 개발, 활용하기 위해서는 디지털 자산화를 제대로 수행하는 것이 필수입니다.

visually rich documents — 텍스트만 담긴 문서보다는, 표나 그래프 등 의미를 가진 시각적 정보가 함께 포함된 복잡한 문서, 즉 VRD가 훨씬 많습니다.

LLM 개발 및 활용을 위한 디지털 자산화 과정

VRD를 재료로 활용해 LLM을 개발하거나 활용하기 위해서는 다음과 같은 절차를 밟습니다. 이 중 1-2단계가 디지털 자산화의 과정에 해당합니다.

문서 구조 분석(Layout analysis): 문서에서 표, 이미지 등의 중요 항목(element)의 위치와 구조, 종속관계를 인식하는, 가장 중요한 단계입니다. 이 단계에서는, (1) 반드시 포함하고 싶은 항목과 (2) 제외하고 싶은 항목을 명확하게 정의하는 것이 중요합니다. LLM에 구조 분석을 활용하고 싶은 많은 조직들은 표는 포함하고 헤더(header), 푸터(footer) 등 문서의 부가 정보는 제외하고 싶어 합니다.
마크다운화(Markdownify): 항목들을 인식하고 나면, LLM을 위해 해당 항목들의 순서를 규정하고, 기계가 잘 소비할 수 있는 형태로 정보를 변환합니다.
벡터화(Vectorize): 마크다운으로 변환된 정보를 청킹(chunking, 유의미한 단위로 분할하기)한 후 원하는 형태로 데이터베이스에 저장합니다. 마크다운 텍스트를 있는 그대로 저장할 수도 있고, 벡터 형태로 저장할 수도 있습니다.
쿼리 임베딩 및 LLM 추론(Query embedding & LLM): 마지막으로, 사용자로부터 입력받은 쿼리를 임베딩하고, 데이터베이스 내에서 연관된 항목들을 엮어 최종 결과물을 반환합니다.

LLM을 위한 디지털 자산화 방법들

많은 조직들이 LLM을 위한 디지털 자산화에 OCR 소프트웨어를 적용합니다. 또는, 원본이 디지털 문서(digital-born document)의 경우 pdftotext나 PyPDF2와 같은 PDF 파싱을 위한 오픈소스도 활용합니다. 하지만 일반적인 OCR 소프트웨어나 PDF 파싱 소프트웨어는 글자까지는 성공적으로 추출할 수 있어도, 가장 중요한 정보가 포함된 표나 그래프 등의 항목을 추출하지는 못합니다. 룰 기반으로 중요 항목들을 추출하려고 시도할 수 있지만, 정해진 형태의 문서를 다루는 것이 아닌 이상, 입력의 형태가 너무 다양해서 정확도가 높을 수 없습니다.

일반적인 OCR 또는 PDF 파싱 소프트웨어는 표나 그래프 등의 중요한 항목의 위치나, 구조를 의미있게 추출하지 못합니다.

반면, 문서 구조 분석 전용 소프트웨어는 표나 그래프 등의 중요 항목들을 추출합니다. 또, 여기서 한 걸음 더 나가면 구조 분석 이후 마크다운 변환까지 합니다. 많은 LLM은 학습할 때 마크다운 형태의 데이터를 많이 관찰했기 때문에, 이렇게 문서를 마크다운으로 변환하고 나면 LLM이 활용하기 더욱 좋습니다.

문서 구조 분석 전용 소프트웨어는 표나 그래프 등의 중요 항목들을 추출하며, 한 걸음 더 나간 소프트웨어는 마크다운 변환까지 수행하기 때문에 LLM이 활용하기 용이합니다.

업스테이지에서도 문서 구조 분석을 위한 서비스를 출시 예정입니다. 어떤 문서든, API에 전송하기만 하면 마크다운으로 변환된 결과를 받아볼 수 있는데요. 해당 서비스의 활용에 관심 있으신 분들은 아래 버튼을 클릭해 영업팀에게 연락을 주시거나, 이메일로 출시 관련 소식을 받아보세요.

📝 Document AI 자세히 알아보기