빅테크를 집어삼킨 AI 스타트업, ICDAR 4부문 석권 - [스타뷰 Vol. 8]

People & Culture

Jul 6

2023/07/06   |  5 mins

송지은 (People eXperience)
업스테이지의 기술력이 궁금하신 분
Document AI, OCR 도입에 관심 있으신 분
AI 국제 경진대회에 관심 있으신 분
스타들의 업스테이지 이야기를 담는 스타뷰, 여덟 번째 시리즈에서는 AI OCR 분야에서 가장 권위 있는 국제 경진대회인 ‘ICDAR 2023’에서 글로벌 빅테크를 제치고 4부문 1위를 석권한 영예의 업스테이지 스타분들을 만나보았습니다. 세계 무대에서 최고의 OCR 기술력을 입증한 스타분들의 이야기를 자세히 확인해 보세요.
✔️ [HierText-1/2] 단어, 줄, 단락 .. 계층구조? 대회에 집중하는 것 자체가 큰 재미!
✔️ [VQAonBD] 비율, 평균, 최소 최대 값.. 복잡한 연산? 우리 동료들과 함께라면 문제없죠!
✔️ [IHTR] 도전 그 자체.. 인도 10종 언어, 우리의 OCR 노하우로 해결

기술력만으로 세계 무대에서 겨룰 수 있는 장이 바로 국제 경진대회인데요. 업스테이지가 AI OCR 분야에서 가장 권위 있는 국제 경진대회인 ‘ICDAR 2023’에서 Robust Reading Competition의 4개 부문을 석권하며 아마존, 엔비디아, 알리바바, 화웨이 등 글로벌 빅테크를 제치고 최고의 기술력을 입증했습니다.

‘ICDAR Robust Reading Competition’은 디지털 이미지와 비디오 상에서 텍스트를 감지/인식하는 기술을 다루는 대회로, 업스테이지는 이 중 HierText-1/2, VQAonBD, IHTR 4종목에서 모두 1위를 차지하는 놀라운 기록을 세웠는데요. 이러한 성과를 가능케한 영예의 스타분들을 만나보았습니다.

[최고 성능의 AI OCR, Upstage Document AI 보러가기 →]

[HierText-1/2]
단어, 줄, 단락 .. 계층구조? 대회에 집중하는 것 자체가 큰 재미!

Q. 두 분 안녕하세요! 반갑습니다.

김다현: 안녕하세요, 저는 업스테이지에서 멀티 모달 인공지능 연구원으로 일하고 있는 김다현입니다.

김윤수: 안녕하세요, 저는 AI Challenges팀에서 AI 연구개발을 하고 있는 김윤수라고 합니다.

Q. 다시 한 번 수상을 축하드립니다. HierText 부문 소개를 부탁드려요.

김윤수: HierText는 이미지에서 단어 검출하는 것에서 나아가서 계층구조까지 추출해내는 것을 목표로 하고 있는 구글 리서치 주최 대회입니다. 계층구조를 추출한다는 것은 단어(word)를 검출하고 단어들을 줄(line)로 묶고 줄들을 다시 문단(paragraph)으로 묶는 것을 의미합니다. Task1에서는 계층구조 검출을, Task2에서는 검출된 단어를 잘 인식했는지로 평가하게 됩니다.

김다현: 좀 더 자세히 설명드리자면 Task 1에서는 주어진 이미지에서 계층적(단어, 문장, 문단) 으로 텍스트의 위치를 잡아내는 것 까지 진행했다면, Task 2에서는 단어를 읽는 것까지 시도하게 되는데요. 즉 완전한 OCR을 수행하는 차이가 있습니다.

Task 2는 Task 1에서 사용되는 모델의 결과를 이용하기 때문에 기존 Task 1 인원들과의 어떤 방식으로 결과를 넘겨받을지에 대한 합의가 중요했습니다. 이 부분에서 기존에 업스테이의 D+R로 구성된 OCR 파이프라인과는 차이가 발생했습니다. 이를 해결하기 위해 대회 데이터에 맞게 Task 2 모델의 입력 데이터를 기존과는 다른 방식으로 전처리 하는 것이 주효했습니다.

Q. 여러 부문 중 HierText-1/2에 도전하게 된 계기와 대회 준비 과정이 궁금합니다.

김윤수: 저는 평소에 OCR을 주로 다루지는 않고 있다 보니 검출, 인식, 파싱이 복합적으로 들어있는 태스크보다는 그중 하나에 집중하여 도전해 보고 싶었습니다. 마침 HierText Task 1이 검출에 집중한 태스크였고, 동시에 단순 검출에서 나아가 단어, 줄, 문단의 계층적 구조를 파악해야 하는 과제이다 보니 호기심이 생겼습니다. 한 달 정도 대회에 투자했는데요, 그 기간 동안 집중할 수 있도록 팀에서 여러모로 배려해 주셨습니다.

김다현: 다른 팀분들이 HierText Task 1에 참가하시는 것을 보고 OCR 전체 파이프라인까지 주로 다루는 업스테이지인 만큼 Task 2도 출전을 해보고 싶다는 생각이 들었습니다. 또한 기존 참여하고 있던 IHTR 대회가 일정이 연기되면서 HierText Task 2와의 시간분배도 원래 계획보다 수월하게 진행할 수 있어서 좋았습니다. ICDAR의 여러 대회를 하면서 2개월 정도 소요했는데요, 여러 업무를 조율할 수 있게 배려해준 팀과 회사의 지원이 있었기에 이런 성과가 나왔다고 생각합니다. 대회 준비를 하면서 기존 업스테이지에서 사용하던 모델과 대회 데이터간의 간극을 맞추는 여러 방식을 고민했었던 것 같습니다.

Q. 글로벌 유수의 경쟁사와 큰 점수차를 낼 수 있었던 이유는 무엇이라고 생각하나요?

**김윤수 (AI Research Engineer)**

“Naver Cloud, NVIDIA, AWS AI Labs, Alibaba DAMO OCR Team, AntGroup, HUAWEI 등 유수한 기업들이 대회에 참가한 가운데에서도 **업스테이지는 경쟁사를 약 10%의 큰 점수(Task1 기준) 차이로 앞선 결과를 얻어냈습니다.** 이러한 결과가 가능했던 이유는 내용적으로는, 기존 업스테이지의 OCR 관련 코드와 노하우에 새로운 시도들이 더해져서 좋은 성과를 낼 수 있었다고 생각합니다. 환경적으로는, 한달 정도를 온전하게 팀원들끼리 대회 점수를 높인다는 가시적인 목표를 둔 채로, 자유롭게 여러 실험들을 하면서 공유/경쟁을 했던 것이 좋은 성과를 낳는 기폭제가 되었다고 생각합니다.”

Q. 이번 대회에서 중요하게 생각한 Upstage Way는 무엇인가요?

김윤수: HierText 대회에서는 One step more가 중요했다고 생각합니다. Hiertext 대회는 리더보드가 공개돼있지 않아서 어느 정도 성능을 내면 충분한지 알 수 없었습니다. 때문에 현재의 점수에서 멈추지 않고, 내부 리더보드를 만들고 내부 리더보드의 점수를 계속해서 뛰어넘는 방식으로 점수를 끌어올렸는데요. 덕분에 2등과 점수 격차를 크게 벌릴 수 있었다고 생각합니다.

김다현: 이번 대회에서는 One step more가 가장 와닿았습니다. IHTR과 HierText 두 대회 모두 마지막까지 최선을 다하면서 최후까지 성능 향상을 목표로 달렸었는데요. 앞으로 무수히 변화하는 환경에서도 최선의 선택을 하는데 도움이 될 수 있는 아주 중요한 경험이었다고 생각합니다.

Q. 대회 참여를 통해 느낀 레슨런이 있다면 부탁드립니다.

김윤수: 캐글과 마찬가지로 대회에 참여하면 목표가 명확하고 단순해서 집중하기가 좋아 재밌게 임할 수 있었던 것 같습니다. 또 업스테이지가 세계 유수의 기업들과 비교해도 기술 경쟁력을 충분히 갖출 수 있다는 점을 다시 한 번 확인했던 의미있는 경험이었습니다.

김다현: 환경적으로 회사와 팀원분들의 많은 지원이 있었기에 가능한 성과라는 생각이 들면서 새삼 업스테이지의 인프라가 얼마나 좋은지 체감할 수 있었습니다. 기술적으로 회사 업무에서는 사용되지 않았던 여러 데이터 전처리 관련된 기법들을 많이 적용해보고 장단점을 피부로 느낄 수 있어서 좋은 시간이었습니다.

Q. 이후의 계획과 포부가 궁금합니다.

김윤수: 챗GPT가 가능성을 보여준만큼, LLM 학습, 또는 AutoGPT와 같이 학습된 LLM을 활용한 프롬프트 프로그래밍 쪽을 탐색하려고 합니다. 사람들에게 쓸모있는 모델 또는 애플리케이션을 만들고 싶습니다.

김다현: 대회에서 여러 기술들을 사용해 온 만큼, 앞으로 제품을 만드는데도 보다 과감히 기존 기술의 틀을 벗어나는 시도를 해봐야겠다는 생각이 들었습니다.

[VQAonBD]
비율, 평균, 최소 최대 값.. 복잡한 연산? 우리 동료들과 함께라면 문제없죠!

Q. 반갑습니다, 수원님! 소개 부탁드려요.

신수원: 안녕하세요. 저는 업스테이지에서 자연어 처리 연구원으로 일하고 있는 신수원입니다.

Q. 참가하신 VQAonBD은 어떤 종목인가요?

신수원: VQAonBD는 Visual Question Answering on Business Document의 약자로, 재무제표 같이 테이블 형태로 이루어져 있는 이미지를 보고 주어진 질문에 대한 답을 하는 task 입니다. 이 때, 테이블의 값은 대부분 숫자로 이루어져 있습니다. 질문의 유형은 크게 세 가지로 나눌 수 있는데, 첫 번째 유형은 질문에서 row나 column에 대한 정보를 파악한 뒤, 그 cell에 있는 값을 그대로 추출해내는 질문입니다. 두번째는 두 cell에 있는 값의 비율을 계산해야 하는 질문입니다. 마지막은, 특정 row나 특정 column에 있는 모든 값들 중에 최대값, 최소값, 평균, 중간값, 누적합 등을 계산해야 하는 문제입니다. 예를 들어, 재무제표가 주어지고, ‘2017년의 모든 값들 중 최댓값을 구하세요’ 같은 질문들입니다.

Q. ICDAR에서 VQAonBD 종목을 선택하신 이유는 무엇인가요?

신수원: ICDAR의 여러 task 중에서 저희 Document AI팀이 하고 있는 정보 추출을 통한 문서 자동화와 가장 밀접한 관련이 있는 task이고 우리 팀이 언젠가는 다뤄야 할 도메인이라고 생각했어요. 준비 자체는 NLP-Engine 팀원 분들이 거의 모두 참여하셨을 정도로 회사에서 지원을 많이 해주었고, 대회 마감일이 계속 미뤄지는 상황 속에서도 끝까지 대회를 신경쓸 수 있도록 배려를 해주었습니다. 3월 중순부터 5월 중순까지 두 달 정도를 전념한 끝에 좋은 성과를 거둘 수 있었습니다.

Q. VQAonBD 과제를 수행하며 어떻게 방법론을 찾아가셨나요?

신수원: NLP-Engine 팀원분들이 거의 모두 참여해 주셔서, 성능이 좋은 여러 방법론들이 나왔었는데요. 각자 생각하는 대로 구현하고, 성능을 측정하고, 회의를 통해 발전시켜나가고, 이 과정을 계속 반복하면서 최종적으로 가장 좋은 방법론을 선택해서 제출을 하게 됐습니다.

가장 좋은 방법론에 대해서 설명 드리려면 저희 팀의 강민수님 이야기를 빼놓을 수 없는데요. 민수님께서는 중간에 훈련소를 다녀오시느라 3주간의 공백이 있었음에도 불구하고 두 가지의 아주 효과적인 방법론을 제시해주셨습니다. 첫번째는, 모델에게 테이블을 읽는 방법을 가르치는 것, 그리고 두 번째는 요즘 인기 절정의 ChatGPT를 사용해서 기존의 데이터를 저희 모델이 더 잘 이해할 수 있는 형태의 데이터로 변환했다는 것입니다. 이 두 가지 방법은, 다른 팀원 분들께서 다른 방법론을 개발하는데 모두 쓰였을 정도로, 좋은 뼈대가 되어주었습니다.

위 두 가지 방법을 기반으로 저희는 복잡한 질문을 조금 더 쉽게 나누어 모델에게 학습시키고, 나눠진 질문에 대해 모델이 추론한 값을 다시 합쳐서 최종값을 도출해내는 방법론을 선택했습니다.

Q. ICDAR 4부문 수상이라는 업스테이지의 놀라운 성과를 예상하셨나요?

신수원: 대회를 시작할 때쯤에는 팀원 분들이 다들 너무 뛰어난 분들이셔서 이분들과 함께라면 수상이 가능하지 않을까 하는 기대를 내심 가지고 있었습니다. 대회 중간에 리더보드가 열리면서 실시간으로 순위를 알 수 있었는데요. 2등과의 점수 격차가 어느 정도 벌어지게 되었습니다. 끝까지 최선을 다하면 우리가 수상할 수도 있겠다는 확신이 들더라고요. 결국 좋은 동료에서 비롯된 기대가 좋은 결과로 이어지게 되었습니다.

Q. 이번 대회에서 중요하게 생각한 Upstage Way는 무엇인가요?

**신수원 (AI Research Engineer)**

“가장 중요하다고 생각하는 업스테이지 웨이는 **One team** 입니다. 서로 같은 목표를 바라보고, 의지할 수 있는 One team이 돼야 아무리 힘든 일이더라도 버틸 수 있고, 결국 좋은 제품을 만들어 낼 수 있다고 생각하기 때문입니다. 노하우라고 할 것 까지는 없지만, 개인적으로는 다른 분들이 힘든 일이 있을 때는 그 짐을 최대한 나누어 들기 위해 노력하고 있습니다. 하지만 아직 잘 안되는 부분이라, 더 열심히 해보려고요!”

Q. 대회 참여 소감과 앞으로의 계획이 궁금합니다.

신수원: 뛰어난 동료들과 함께라면 무엇이든 할 수 있다는 것을 배웠습니다. 개인적으로는 이번에 처음으로 하나의 팀을 매니징 해보았는데, 부족한 점을 많이 느꼈습니다. 이번 경험을, 저의 성장을 위한 좋은 발판으로 삼아보려 합니다. 그리고 대회에서 얻은 레슨런을 바탕으로, 더 좋은 제품을 만드는 데 집중해보고 싶습니다.

[IHTR]
도전 그 자체.. 인도 10종 언어, 우리의 OCR 노하우로 해결

Q. 반갑습니다 현수님!

하현수: 네 안녕하세요. 저는 업스테이지에서 엔지니어링과 연구를 담당하고 있는 하현수라고 합니다.

Q. IHTR 소개 부탁드립니다.

하현수: 인도에는 매우 다양한 언어가 있는데요. 이 언어중 인도에서 표준문자로 지정된 10가지의 언어 (Bengali, Devanagari, Gujarati, Gurumukhi, Kannada, Malayalam, Odia, Tamil, Telugu, Urdu)에 대하여 손글씨를 OCR로 인식하는 문제였습니다. 10가지 언어가 생김새가 비슷하면서도 다 다르고, Urdu의 경우 한국인 입장에서 매우 생소한, 왼쪽에서 오른쪽으로 쓰는 (Left-to-Right) 방식의 언어여서 OCR을 주력으로 하는 업스테이지에도 꽤 도전적인 과제였다고 생각합니다.

Q. 쉽지 않은 과제임에도 도전하게 된 이유가 있나요?

하현수: 업스테이지의 OCR 기술이 언젠가는 해외 시장에 진출해야 된다고 생각합니다. 그래서 외국어 중에서도 가장 난이도가 있어 보이는 언어인 ‘인도어’에 도전해자는 선택을 하게 되었습니다. 중간중간 솔루션 개발 업무 등이 있긴 했지만, 팀에서 대회에 집중할 수 있도록 배려해주셔서 대회 준비에 전념할 수 있었습니다.

Q. 다뤄본적 없는 언어임에도 불구하고 높은 성능의 모델을 구축해
1위를 할 수 있었던 이유는 무엇인가요?

하현수: 1년 반 남짓한 기간동안 쌓였던 OCR 관련 노하우들이 가장 큰 도움이 됐던 것 같은데요. 기존에도 범용 모델의 성능을 높이기 위해 실제로는 존재하지 않는 데이터를 합성하여 학습에 사용하는 합성데이터 기술, 업스테이지의 AI 솔루션 Document AI에서 학습을 자동화하기 위한 파이프라인등이 잘 정립되어 있어서 매우 빠르게 다양한 실험들을 반자동화로 진행할 수 있었고, 그 결과 비교적 생소한 영역이었지만 좋은 결과를 얻어낼 수 있었던 것 같습니다. 대회 기간 동안 진행된 실험은 각기 다른 세팅으로 무려 2,400개 입니다.

가장 성능에 큰 영향을 미쳤던 것은, Train Dataset과 Test Dataset의 화질, 색감 차이등을 눈으로 직접 확인해보고, 이러한 점을 고려하여, 다양한 Augmentation 방법론을 취해본 것, 그리고 어마무시하게 많은 양의 모델을 바탕으로 다양한 조합의 모델 Ensemble 기법을 취할 수 있었던 점이 유효했던 것 같습니다.

Q. 대회를 준비하며 중요하게 생각한 Upstage Way와 실천 노하우를 공유해 주세요.

하현수: 대회에 가장 잘 부합하는 업스테이지 웨이는 One step more였다고 생각합니다. IHTR의 경우 마지막 일주일 동안 리더보드상에서 1, 2위 다툼이 매우 치열했는데요. 몇몇 언어 군에서는 0.1% 차이가 최종 순위 결과에 영향을 미칠 정도였습니다. 끝까지 포기하지 않고 One step more의 정신으로 실험을 한 가지라도 더 해보려고 노력한 의지와 시도가 주요했다고 생각합니다.

Q. 이번 대회를 통해 경험하게 된 레슨런이 있다면 한 말씀 부탁드립니다.

하현수: ‘멋진 동료와 으쌰으쌰 하다 보면 안 될 것도 가능하다!’, ‘외국어 OCR은 외국어를 못해도 의지만 있다면 만들 수 있다!’는 점을 느끼게 되었습니다.

Q. 앞으로의 계획이나 포부, 마지막으로 청해봅니다.

하현수: 인도어의 경험을 바탕으로 Document AI 모델의 언어 확장을 진행하기로 하였습니다. 회사 Document AI API 제품에서도 다양한 언어의 OCR을 제공할 날이 머지않았습니다! 대회의 경우 한 번쯤은 학회 Competition보다도 규모가 큰 Kaggle 등의 글로벌 대회에서 수상해 보고 싶습니다. 앞으로 업스테이지의 행보에 많은 관심을 가져주시면 감사하겠습니다.

Event

데이터의 자산화를 통해 새로운 가치를 만들어 보세요

업스테이지 콘솔에서 Document AI API를 마음껏 테스트해 보시고 원하는 서비스를 만들어 보세요!

Get free credit →

🔎 Document AI 자세히 알아보기
2020년 10월 설립한 업스테이지는 이미지에서 원하는 정보를 추출해 이용할 수 있는 OCR기술을 비롯, 고객 정보와 제품 및 서비스 특징을 고려한 추천 기술, 의미기반 검색을 가능케하는 자연어처리 검색기술 등 최신 AI 기술을 다양한 업종에 맞춤형으로 손쉽게 적용할 수 있는 노코드-로코드 솔루션 ‘Upstage AI Pack’을 출시, 고객사들의 AI 혁신을 돕고 있다. Upstage AI Pack을 이용하면 데이터 가공, AI 모델링, 지표 관리를 쉽게 활용할 수 있을 뿐 아니라 지속적인 업데이트를 지원, 상시 최신화 된 AI 기술을 편리하게 사용할 수 있다. 더불어, AI 비즈니스 경험을 녹여낸 실습 위주의 교육과 탄탄한 AI 기초 교육을 통해 AI 비즈니스에 즉각 투입될 수 있는 차별화된 전문 인재를 육성하는 교육콘텐츠 사업에도 적극 나서고 있다.
업스테이지는 구글, 애플, 아마존, 엔비디아, 메타, 네이버 등 글로벌 빅테크 출신의 멤버를 중심으로 NeurlPS를 비롯, ICLR, CVPR, ECCV, WWW, CHI, WSDM 등 세계적 권위의 AI 학회에 다수의 우수 논문을 발표하고, 온라인 AI 경진대회 캐글(Kaggle)에서 국내 기업 중 유일하게 두 자릿수 금메달을 획득하는 등 독보적인 AI 기술 리더십을 다지고 있다. 업스테이지 김성훈 대표는 홍콩과학기술대학교 교수로 재직하면서 소프트웨어공학과 머신러닝을 융합한 버그 예측, 소스코드 자동생성 등의 연구로 최고의 논문상인 ACM Sigsoft Distinguished Paper Award 4회 수상, International Conference on Software Maintenance에서 10년 동안 가장 영향력 있는 논문상을 받은 세계적인 AI 구루로 꼽히며, 총 700만뷰 이상을 기록한 ‘모두를 위한 딥러닝’ 강사로도 널리 알려져 있다. 또한, 업스테이지의 공동창업자로는 네이버 Visual AI / OCR 을 리드하며 세계적인 성과를 냈던 이활석 CTO와 세계 최고의 번역기 파파고의 모델팀을 리드했던 박은정 CSO가 참여하고 있다.
업스테이지 홈페이지 바로가기

←블로그 돌아가기

Hailey(박성민) .

빅테크를 집어삼킨 AI 스타트업, ICDAR 4부문 석권 - [스타뷰 Vol. 8]

[HierText-1/2] 단어, 줄, 단락 .. 계층구조? 대회에 집중하는 것 자체가 큰 재미!

[VQAonBD] 비율, 평균, 최소 최대 값.. 복잡한 연산? 우리 동료들과 함께라면 문제없죠!

[IHTR] 도전 그 자체.. 인도 10종 언어, 우리의 OCR 노하우로 해결

데이터의 자산화를 통해 새로운 가치를 만들어 보세요

B2B AI 회사에서 디자이너로 일한다는 것 (Oh! Design Day)

직장인의 업무 효율을 높여줄 AI 툴

[HierText-1/2]
단어, 줄, 단락 .. 계층구조? 대회에 집중하는 것 자체가 큰 재미!

[VQAonBD]
비율, 평균, 최소 최대 값.. 복잡한 연산? 우리 동료들과 함께라면 문제없죠!

[IHTR]
도전 그 자체.. 인도 10종 언어, 우리의 OCR 노하우로 해결