업스테이지, 세계 최고 권위 학회 'EMNLP 2023’에서 논문 2편 채택

LLM

2023/10/23
  • 업스테이지 자연어처리 최고 권위 학회 EMNLP 2023에서 논문 2편 채택

  • 지난 6월 ICML 2023-DMLR 국내 기업 최다 7편 채택 이어 세계 최고 수준 학회 연이은 낭보

  • 설립 3년만에 국내외 인공지능 분야 논문 100편 발표 및 NLP 톱 7 컨퍼런스 논문 채택 성과


 

(업스테이지=2023/10/23) AI 스타트업 업스테이지가 자연어 처리 분야에서 세계 최고 수준의 연구 성과를 달성했다.

업스테이지(대표 김성훈)는 자연어 처리 분야에서 가장 권위 있는 학회인 EMNLP 2023에서 논문 2편을 발표하며 글로벌 톱 AI 기술력을 재확인했다고 밝혔다.

EMNLP 2023은 Empirical Methods in Natural Language Processing의 약자로, AI 번역과 챗봇, 기계 독해 등 언어 데이터 기반 자연어 처리 접근법과 관련된 연구를 다루는 세계 최고 수준의 학회다.

지난해 EMNLP 2022는 총 3,242편의 논문이 제출되었고, 이 중 715편만 통과되어 22%의 채택률을 기록했다. EMNLP 2023은 12월 6일부터 12월 10일까지 싱가폴에서 개최되며, 구글, 애플, 아마존, 바이두 등 세계 유수의 AI 기업이 참여한다.

이번에 채택된 논문 2편은 한국어 관련 NLP 연구 성과로 업스테이지의 박찬준 테크 리드 주도로 고려대 임희석 교수 연구팀과 협업을 통해 진행됐다.

첫 번째 논문 ‘KEBAP: Korean Error Explainable Benchmark Dataset for ASR and Post-processing’은 한국어 음성인식 후처리기와 관련한 새로운 벤치마크 데이터셋을 구축한 논문으로, 음성인식 모델의 약점을 평가하고 식별하기 위한 새로운 평가 방법론을 제안한다.

이 논문은 음성 및 텍스트 레벨 두 가지 측면을 고려해 음성인식 모델의 약점에 대한 정확한 정보를 제공하지 못하는 전통적인 평가 방법의 문제점을 지적하며 음성 및 텍스트 수준 오류를 통합적으로 고려, 모델의 설명 가능성을 향상시킨 연구다.

배경 소음 및 발화자 특성을 고려한 37개의 음성 레벨 유형 및 13가지 텍스트 레벨 오류 유형을 세분화했으며, 제안된 평가 방법을 Google 클라우드 음성인식 및 CLOVA와 같이 상용화 음성인식 시스템에 적용해 분석했다.

두 번째 논문 ‘CHEF in the Language Kitchen: A Generative Data Augmentation Leveraging Korean Morpheme Ingredients’은 한국어의 특성을 살린 새로운 데이터 증강 기법을 제안한 논문이다.

한국어는 영어와 달리 형태소라는 작은 단위로 구성되어 있으며, 형태소의 조합에 따라 문장의 의미가 달라진다. 예를 들어, '밥’과 '먹’이라는 형태소를 조합하면 ‘밥을 먹다’, ‘밥을 먹었다’, ‘밥을 먹고 싶다’ 등 다양한 문장을 만들 수 있는데, 특징을 고려하지 않고 임의로 데이터를 증강하면 문장의 의미가 바뀌거나 자연스럽지 않은 문장이 생성되는 맹점이 있다.

논문은 한국어의 특성을 기반한 새로운 데이터 증강 방법론 CHEF를 통해, 같은 재료로도 한국어의 특징을 반영, 자연스러운 문장을 생성하고 생성형 언어 모델이 한국어 형태소 조합을 다양하게 변형해 데이터를 증강하는 방법론을 제안한다.

이번 업스테이지의 EMNLP 2023에서의 성과는 글로벌 학회에서의 연이은 낭보다. 업스테이지는 지난 6월 Data-Centric AI 분야에서 가장 권위 있는 워크숍인 ICML 2023-DMLR에서 논문 7편을 발표하며 국내 기업 최다 연구 성과를 달성한 바 있다.

또한 업스테이지는 창립 3년 만에 국내외 AI 논문 100편 발표 및 구글 스콜라 랭킹 기준 NLP 분야 컨퍼런스 Top 7에서 모두 논문 채택을 달성하는 쾌거를 이뤘다.

구글 스콜라 랭킹은 학술정보 전문 검색 서비스인 구글 스콜라가 논문의 인용 횟수에 따라 평가, 학회의 영향력을 측정하는 권위 있는 지표다. NLP 분야 톱 7 컨퍼런스로는 ACL, EMNLP, NAACL, TACL, COLING, LREC, WMT가 꼽히고, 이중 저널로 구분되는 TACL을 제외한 모든 컨퍼런스에서 업스테이지가 논문 성과를 이룬 것이다.

업스테이지 김성훈 대표는 “이번 EMNLP 2023을 비롯 다양한 글로벌 학회에서 연구 성과를 낼 수 있어 무척 기쁘다” 며 “업스테이지는 지속적인 R&D 투자를 통한 연구성과를 바탕으로 누구나 최고 성능의 AI를 더 편리하게 이용하실 수 있도록 최선을 다하겠다”고 밝혔다.

 
 
 

※ 사진 설명 : 업스테이지가 자연어처리 분야에서 가장 권위 있는 학회인 EMNLP 2023에서 논문 2개를 발표하며 글로벌 톱 기술력을 재확인했다. 사진은 EMNLP 2023에서 채택된 업스테이지의 ‘KEBAP’ 논문

 
 
  • 김근교 | 브랜드 커뮤니케이션 총괄이사 | keunkyo@upstage.ai
    배성범 | 브랜드 커뮤니케이션 매니저 | sungbae@upstage.ai

    보도자료 다운받기

  • 업스테이지는 2020년 10월에 설립된 국내 대표 AI 스타트업이다. 업스테이지는 허깅페이스 리더보드에서 오픈LLM 역사상 최초로 챗GPT의 벤치마크 점수를 뛰어넘는 성능으로 1위를 차지하며 거대 언어 모델(LLM) 업계에서 두각을 나타내고 있다. 이런 기술력을 기반으로 데이터 보안을 극대화하고 할루시네이션을 해결한 신뢰할 수 있는 프라이빗 LLM의 표준을 제시, 최첨단 기술을 기업이 편리하게 사용할 수 있도록 돕는다. 또한, 업스테이지의 Chat AI ‘AskUp’은 140만 명이 넘는 사용자를 보유, 국내 최대 AI 서비스로 자리매김했다. 또다른 업스테이지 대표 솔루션인 Document AI Pack은 세계 최고 권위 OCR 대회를 석권한 AI OCR 기술을 활용, 효율성과 정확성을 높여 문서 자동화 실현한다. 최소한의 데이터로 사전 학습된 모델을 통해 문서 처리를 최적화함으로써 수작업 방식에 비해 비용과 시간을 획기적으로 최소화한다. 마지막으로, 교육프로그램 ‘에듀스테이지’를 통해 AI 비즈니스 경험을 녹여낸 실습 위주의 교육과 탄탄한 AI 기초 교육을 통해 AI 비즈니스에 즉각 투입될 수 있는 차별화된 전문 인재를 육성하는 교육 콘텐츠 사업에도 적극 나서고 있다.

    업스테이지는 구글, 애플, 아마존, 엔비디아, 메타, 네이버 등 글로벌 빅테크 출신의 멤버를 중심으로 NeurlPS를 비롯, ICLR, CVPR, ECCV, WWW, CHI, WSDM, DMLR 등 세계적 권위의 AI 학회에 다수의 우수 논문을 발표하고, 온라인 AI 경진대회 캐글(Kaggle)에서 국내 기업 중 유일하게 두 자릿수 금메달을 획득하는 등 독보적인 AI 기술 리더십을 다지고 있다. 업스테이지 김성훈 대표는 홍콩과학기술대학교 교수로 재직하면서 소프트웨어공학과 머신러닝을 융합한 버그 예측, 소스코드 자동생성 등의 연구로 최고의 논문상인 ACM Sigsoft Distinguished Paper Award 4회 수상, International Conference on Software Maintenance에서 10년 동안 가장 영향력 있는 논문상을 받은 세계적인 AI 구루로 꼽히며, 총 700만뷰 이상을 기록한 ‘모두를 위한 딥러닝’ 강사로도 널리 알려져 있다. 또한, 업스테이지의 공동창업자로는 네이버 Visual AI / OCR 을 리드하며 세계적인 성과를 냈던 이활석 CTO와 세계 최고의 번역기 파파고의 모델팀을 리드했던 박은정 CSO가 참여하고 있다.

 
Previous
Previous

업스테이지 AI OCR 솔루션 ‘Document AI’, 보험업계 문서 자동화 실현 평가

Next
Next

업스테이지-NIA ‘Open Ko-LLM 리더보드’, 2주 만에 100개 모델 돌파