DMOps(Data Management Operation and Recipes), 현업에서 데이터 구축하기

2023/05/12   |  5 mins
 
  • 박찬준 (AI Research Engineer)

  • 현업에서 데이터를 구축하는 과정(DMOps)이 궁금하신 분
    고품질의 인공지능 모델을 만들고자 하시는 분
    Data-centric AI에 관심 있으신 분

  • 규칙 기반, 통계 기반, 기계학습 기반, 딥러닝 기반, LLM 기반에 이르기까지, 인공지능 시대를 지나오면서 데이터가 중요하지 않은 시절은 존재하지 않았습니다.

    그렇다면 이 데이터는 누가 제작하고 설계하는 걸까요? 고품질의 AI 모델을 만들기 위한 ‘학습 데이터 제작의 A to Z’를 정리해 봅니다.

    DMOps 에 관한 자세한 내용을 업스테이지 Tech 블로그에서 확인해 보세요!

  • ✔️ DMOps의 필요성

    ✔️ DMOps 소개

    ✔️ 1. Establish the Project Goal (프로젝트 목적 파악)
    ✔️ 2. Secure Raw Data (원천 데이터 수집)
    ✔️ 3. Data Pre-processing (데이터 전처리)
    ✔️ 4. Design a Data Schema (데이터 주석 체계 설계)
    ✔️ 5. Prepare a Guideline (가이드라인 작성)
    ✔️ 6. Recruit Annotators (작업자 모집)
    ✔️ 7. Instruct Annotators (작업자 교육)
    ✔️ 8. Data Labeling (데이터 라벨링)
    ✔️ 9. Data Internal Factor Verification (데이터 내재적 요소 검수)
    ✔️ 10. Data Extrinsic Factor Verification (데이터 외재적 요소 검수)
    ✔️ 11. Data Evaluation through Model Verification (모델을 통한 데이터 품질 평가)
    ✔️ 12. Data Deliverables (데이터 전달)
    ✔️ DMOps의 미래

💡 Data-centric AI의 발전으로 데이터의 중요성이 나날이 커지고 있습니다. 지난 1편에서는 Real-World에서 Data-Centric AI가 어떻게 표상되고 운영되는지 소개했다면, 이번 기고 글에서는 현업에서 실제 데이터를 어떻게 구축하는지, DMOps(Data Management Operation and Recipes)에 대해 자세히 설명해 드리려 합니다.



규칙 기반, 통계 기반, 기계학습 기반, 딥러닝 기반, LLM 기반에 이르기까지, 인공지능 시대를 지나오면서 데이터가 중요하지 않은 시절은 존재하지 않았습니다. 각 시대별로 학습 방법론의 차이가 극명하게 존재하지만, 데이터와 Task는 그대로 유지되어 왔습니다. 예를 들어 기계 번역의 경우 1949년 워렌 위버(Warren Weaver)가 제안한 개념을 시작으로, 규칙 기반 기계 번역기, 통계 기반 기계 번역기를 거쳐서 지금의 구글 번역기, 파파고, DeepL 등에 사용되는 인공신경망 기반 기계번역 (Neural Machine Translation)으로 발전되어 왔으며, 이는 모두 병렬 말뭉치 (Parallel Corpus)를 기반으로 모델을 학습했습니다. 이렇듯 모든 시대를 거쳐 Task와 데이터는 그대로 유지되어 왔고, 학습 방법론의 차이만 존재하는 것이죠. 즉 데이터는 인공지능이라는 용어가 만들어졌을 때부터 지금까지 유비쿼터스한(ubiquitous, 어디에나 있는) 존재였습니다.

그렇다면 이 데이터는 대체 누가 제작하고 설계할까요? “콩 심은 데 콩 나고 팥 심은 데 팥 난다”라는 속담처럼, 데이터는 마법처럼 갑자기 생겨나는 것이 아닌, 일련의 과정을 거쳐 탄생하게 됩니다. 이번 포스팅에서는 고품질의 인공지능 모델을 만들기 위한 학습 데이터를 어떻게 Zero부터 One까지 제작하는지에 대한 설명을 다루고자 합니다.

DMOps의 필요성

Data-Centric AI의 등장으로, 학계와 정부 기관은 데이터에 대한 다양한 연구와 정책을 펼치고 있습니다. 학계에서는 대규모 데이터셋을 활용한 모델 성능 개선 연구뿐만 아니라, 모델 간 성능 비교를 위한 벤치마크 데이터셋 제작 연구 등 다양한 분야에서 연구가 진행되고 있습니다. 정부는 공공 데이터 개방 정책을 시행하며 국가통계청 등에서 데이터를 제공하고 있으며, 데이터 댐 프로젝트(과학기술정보통신부에서 주최한 프로젝트로서, 디지털 뉴딜 중 하나)를 시행하고 있습니다. 이에 해당하는 핵심 사업으로는 AI 바우처 지원사업, AI 학습용 데이터 구축 등이 있으며 이를 통해 클라우드와 빅데이터 플랫폼을 비롯한 여러 데이터를 모은 디지털 경제 기반을 조성하고자 했습니다. 더불어 국립국어원, NIA에서 운영하는 AIHUB 등 다양한 데이터 플랫폼들을 국가 차원에서 운영하고 있기도 합니다.

하지만 산업계에서는 주력 사업 도메인에 특화된 데이터가 필요하며, 특히나 B2B 기업에는 고객 요구사항과 사업 아이템에 맞는 데이터가 필수적입니다. 이러한 데이터는 공개되는 벤치마크 데이터셋과 공공 데이터만으로는 충족시키기 어렵고, 해당 데이터들을 사용하더라도 결국 도메인에 특화된 데이터를 추가로 직접 제작해야 합니다. 이에 많은 기업이 자체적으로 필요한 데이터를 제작하고 있으며, 더 나아가 크라우드 워커들을 전문적으로 운영하는 기업들이 등장하고 있습니다.

이러한 기업의 데이터 필요 관점에서 대응하여, 특정 도메인과 무관하게 범용적으로 적용할 수 있고 데이터를 쉽고 빠르게 효율적으로 구축할 수 있는 파이프라인인 DMOps를 소개하고자 합니다. DMOps는 데이터 제작을 위한 종합적인 솔루션입니다. 데이터 제작 단계에서부터 배포 단계까지의 전 과정을 담당합니다. 이를 통해 기업이 데이터를 설계하고, 제작하는 데 드는 시간과 비용을 절감하여 운영 효율화에 도움이 될 수 있습니다. 즉 DMOps는 빠르고 효율적으로 데이터 구축을 할 수 있는 일종의 종합 솔루션이자 데이터를 생산하는 베이스라인 역할로, 일관성 있고 신뢰할 수 있는 고품질의 데이터를 생산할 수 있게 합니다.

DMOps 소개

dmops

DMOps에 필요한 과정 (출처: https://arxiv.org/pdf/2301.01228.pdf)

음식을 만들기 위해서는 레시피가 필요한 것처럼 데이터를 제작하는 데에도 레시피가 필요합니다. 그 레시피의 이름이 바로 DMOps 입니다. DMOps는 총 12 단계로 나누어져있습니다. 여기에는 데이터 목적 및 요구사항 분석이 이뤄지는 비즈니스 단계부터 모델팀에게 최종 산출 데이터가 전달되는 모든 과정이 포함되어 있습니다.

  1. Establish the Project Goal (프로젝트 목적 파악)

데이터 제작의 목적과 사업적 요구사항 분석이 이루어지는 단계입니다. 해당 단계는 모델팀, 사업 운영팀 등과의 협업이 요구되며, 모델팀에서 사용하는 딥러닝 모델을 파악하고 이에 대응되는 데이터의 입출력 형식과 단계적으로 필요한 수량 등을 정하게 됩니다. 기업에서는 사용자 (User) 혹은 고객의 니즈 파악에서 모든 것이 시작됩니다. 이것이 학계와 기업 간의 결정적인 차이점이며, 기업에서는 프로젝트의 목적성을 고려하는 것이 매우 중요합니다. 즉 기업 관점에서의 좋은 데이터란 데이터 공급자의 니즈(needs), 즉 요구사항이 잘 반영된 데이터로부터 시작됩니다.

2. Secure Raw Data (원천 데이터 수집)

원천 데이터에 대한 조사와 더불어 수집이 이루어지는 단계입니다. 원천 데이터는 어떻게 수집될까요? 크게 다섯 가지 정도로 나누어 볼 수 있습니다.

  1. 고객사에서 데이터를 제공하는 경우

  2. 자체적으로 크라우드 소싱(인하우스 작업자)을 하여 데이터를 수집하는 경우

  3. 크롤링을 진행하는 경우

  4. 공공 데이터를 가져다 쓰는 경우

  5. 사내 내부 이벤트를 통해 데이터를 수집하는 경우

어떠한 경로로든 데이터를 수집할 시에는 저작권 확인이 필수적이며, 더 나아가 기업의 경우 법무적 검토를 반드시 거쳐야 합니다. 더불어 데이터를 저장하는 구조, 수정 권한 등도 고려해야합니다. 가능한 데이터를 다루는 팀에게만 데이터 접근 권한을 부여하여 데이터의 무분별한 수정 혹은 관리로부터 안전하게 보호하는 것이 중요하며, 데이터를 저장할 시에도 체계적인 폴더구조를 바탕으로 관리 되는 것이 중요합니다.

원시 데이터 수집 시 아래와 같은 네 가지 요소를 고려하는 것이 중요하다고 “인공지능 데이터 품질 표준안(과학기술정보통신부)”에서 권고하고 있습니다.

  • 데이터 다양성: 학습에 유용한 모든 특성 정보를 포함하고 있고 다양하게 변화하고 있는지를 고려하여 실제 세상과 유사한 특성과 변동성을 가진 데이터로 구성해야 함

  • 신뢰성: 원시데이터는 반드시 신뢰할 수 있는 출처로부터 수집해야 함

  • 획득 가능성: 특성이 드러나지 않는 데이터 등 가공이 어려운 데이터를 수집하면 안 되고 가공이 용이한 데이터를 수집해야 함

  • 법 제도 준수: 개인정보가 포함된 데이터 수집 시 수집 및 활용에 동의받은 데이터만을 수집해야 하고, 허가가 필요한 구역에서는 사전 허가를 받고 데이터를 수집해야 함

특히 저작권을 고려하는 것도 매우 중요하며, CC 라이선스를 항상 확인하여 데이터를 이용하는 습관을 들이는 것이 중요합니다.

3. Data Pre-processing (데이터 전처리)

수집하거나 전달받은 원천 데이터를 기반으로 데이터의 질을 향상하기 위해 다양한 전처리를 진행하는 단계입니다. 기본적으로 데이터를 요구사항 형식에 맞추는 것부터 필터링이 필요한 개인 정보, 혐오 표현 등의 노이즈 등을 거르는 작업이 핵심입니다. 즉 “양보다는 질”을 실천하는 단계입니다.

이러한 전처리 단계는 크게 두 가지 작업으로 나눌 수 있습니다. 첫째로는 데이터의 내재적인 특성을 바탕으로, 퀄리티를 향상해 주는 작업입니다. 대표적으로 기계번역의 parallel corpus filtering 작업이 존재하며, 모델의 구조 변경 없이, 데이터의 품질 관리만으로 모델의 성능을 향상해 주는 데이터 중심적이면서 효율적인 방법론입니다.

두 번째는 데이터의 윤리적인 문제에 대해 대처하는 작업입니다. 데이터의 라이센스 정보를 미리 부착하거나, 개인정보가 있다면 마스킹하는 작업이 본 작업에 해당합니다. 이러한 작업을 사전에 명확히 진행하지 않으면, 추후 데이터 라벨링 및 검증까지 다 진행하더라도 데이터를 사용하지 못할 수도 있기에, 상당히 중요한 작업으로 볼 수 있습니다.

데이터 전처리 시 유의 사항 3가지를 정리하면 아래와 같습니다.

  • 정제 기준

    • 구축 목적에 알맞은 데이터를 선별하기 위한 명확한 기준을 수립하고, 기준미달의 데이터를 효과적으로 제거해야 함

  • 비식별화

    • 개인정보를 적절하게 비식별화하고, 비식별화로 정보의 손실이 생기지 않도록 주의함

  • 중복성 방지

    • 유사한 데이터 및 특성이 없는 데이터 제거해야 함

4. Design a Data Schema (데이터 주석 체계 설계)

“Data Schema"는 데이터베이스 분야에서 데이터 구조를 정의하는 방법을 말합니다. 즉, 데이터베이스에 저장되는 데이터의 형식, 구조, 제약 조건 등을 정의하는 것이죠. 이와 마찬가지로 데이터를 설계할 때 어떻게 데이터 라벨링을 진행할지 등에 대한 기획 및 설계를 진행해야 합니다. 이러한 작업을 진행하는 단계가 바로 “데이터 주석 체계 설계” 단계입니다.

즉, 최종적으로 데이터셋이 필요로 하는 정보를 모두 담을 수 있도록 주석 작업을 설계하는 과정입니다. 데이터를 직접 보면서 AI 모델로 해결하고자 하는 문제를 풀기 위해 필요한 정보를 담을 수 있는 주석 체계를 만드는 것이죠. 또한 효율성과 정확성을 향상하기 위해 자동화할 수 있는 부분(pseudo-labeling)과 인간의 입력이 필요한 부분(Labeling)을 분리하는 것이 중요합니다. 데이터를 구축할 때 자동화는 필수적인 부분이기 때문이죠. 이러한 과정은 파일럿 작업을 통해 부족한 부분의 내용을 빠르게 보강하는 것이 더불어 중요합니다.

쉽게 예를 들어 설명해 보면, 해당 단계는 정보 추출(Information extraction)에서 어떠한 정보를 추출할지, 개체명 인식(name entity recognition)에서 어떠한 entity를 태깅할지, 문서 요약(document summarization)에서 얼마나 정보를 압축할지, 기계번역(machine translation)에서 의역 혹은 직역 혹은 초월 번역을 진행할지 등에 대한 데이터 정책을 설계하는 과정이며 가장 중요한 단계 중 하나입니다. 학계에서는 이러한 정보가 이미 기 정의(pre-determined) 되어 있는 상태로 연구를 진행하지만, 기업에서는 이러한 정보마저도 고객의 니즈에 따라서 새로 설계해야 합니다!

5. Prepare a Guideline (가이드라인 작성)

설계한 데이터 주석 체계를 작업자들 혹은 크라우드소서들에게 전달하기 위한 문서화 작업 단계입니다. 처음 이 과제를 접하는 작업자의 입장에서 모든 엣지 케이스(edge case)를 보게 된다면 작업자의 집중력이 흐트러질 수 있기 때문에 명확한 목적과 작업 방식을 담아 문서의 난이도를 잘 조율해야 합니다. 데이터 구축 목적 정의, 사용 용어 정의, 데이터 구축 시 고려사항 등이 가이드라인에 쉽게 담겨야 합니다. 또한 작업자에게 필수로 공개해야 하는 정보와 부가적인 정보가 무엇인지 사전에 고려해야 하며, 라벨링 체계를 설명할 때, 반드시 예시를 첨부하는 것이 좋습니다. 또한 구축과 검수 과정을 통해 지속적으로 개정하고, 어떤 것이 변화하였는지 버전 관리가 필요합니다.

즉 가이드라인은 아래와 같은 순서로 작성하는 것이 좋습니다.

  • Overview

    • 데이터 구축 목적 소개

  • 용어 정의

  • 라벨링 체계

    • 데이터 특성 분류 체계

    • 데이터 주석 방법 및 절차

    • 데이터 주석 형식과 정의

    • 데이터 주석 도구 사용법

    • 데이터 주석 완료 후 관리 방법

    • 반려 및 통과 기준

  • 유의 사항

  • Edge Case

6. Recruit Annotators (작업자 모집)

실제 데이터를 주석할 작업자를 모집하는 단계입니다. 효율적이고 정확한 작업을 위해서는 적합한 시험을 통해 작업자들을 채용하는 것이 핵심입니다. 즉 데이터셋 구축 가이드라인과 유사한 시험을 출제하여 작업자의 정확도와 속도를 채용 기준으로 삼아야 합니다. 또한 윤리적인 부분에 대해서도 고려가 필요합니다. 좋은 데이터란 작업자에게 정당한 보상이 이루어진 데이터입니다. 따라서 작업자에게 정당한 보상이 이루어졌는지, 불필요한 비용이 지불되지 않았는지도 반드시 고려해야 합니다.

데이터 구축 시, 작업자를 운영하는 방식에 따라 세 가지 Case로 분리해 볼 수 있습니다.

  • 첫 번째로는 내부 조직, 즉 기업이 자체적으로 작업자분들을 운영하는 경우입니다. 이 경우 데이터 품질에 대한 상시 교육 및 피드백이 가능하나, 데이터 작업 환경을 위한 운영비 및 인프라가 필요합니다. 라벨링 결과에 대한 공정간 긴밀한 피드백을 요구하는 작업에 적합한 운영방식입니다.

  • 두 번째로는 아웃소싱 방식입니다. 데이터 구축에 전문적이고 지식과 숙련도가 요구되는 작업에 적합하며, 높은 업무 전문성 및 경험을 보유한 회사의 노하우를 활용할 수 있다는 장점이 존재합니다. 그러나 요구사항 정의 및 기준 합의에 많은 시간이 소요된다는 단점이 존재합니다.

  • 세 번째로는 크라우드 소싱입니다. 단기간에 대량의 데이터를 처리해야 하는 작업에 적합한 방식입니다. 그러나 품질 교육 및 피드백에 있어서 명확한 한계가 존재합니다.

7. Instruct Annotators (작업자 교육)

5단계에서 작성한 가이드라인을 작업자들에게 설명해 주는 단계입니다. 해당 단계의 경우 단순히 가이드라인만 제공한 뒤 이해도를 확인하는 일방적 소통보다 작업자들에게 최대한 질문을 끌어내고 질문들을 정리하는 양 방향적 소통이 핵심입니다. 즉, 작업자들이 전체적인 라벨링의 흐름을 따라갈 수 있도록 하는 것이 중요합니다. 추가적으로 작업자가 단순 노동을 하는 것이 아니라, 목적을 이해하고 그에 맞게 자연스러운 논리적인 흐름을 바탕으로 라벨링을 할 수 있도록 돕는 것도 중요합니다.

8. Data Labeling (데이터 라벨링)

실제 데이터를 구축하는 단계입니다. 작업자의 언어적·인지적·시각적 직관을 데이터로 옮기는 과정이라고 표현할 수 있습니다. 따라서 실질적인 작업자 관리와 함께 작업자마다 다른 직관을 조금 더 보편적인 선에서 통일하는 방법 등을 각 데이터셋에 적합하게 고안해야 하며, 작업자와의 질의응답을 통해 진행 상황 파악을 넘어, 가이드라인만으로는 해결할 수 없는 엣지 케이스(Edge Case) 파악이 중요합니다.

또한, 잘 설계된 Data Labeling Tool을 통해 데이터를 라벨링 하는 것이 핵심입니다. Data Labeling Tool을 사용할 때는 아래와 같은 세 가지 요소를 고려하는 것이 좋습니다.

  • Quality Control: 일관성 있고 정확한 데이터를 생성할 수 있는지

  • Efficiency: 시간을 단축하여 효율적으로 데이터를 쉽게 구축할 수 있는지

  • Scalability: 여러 작업자가 동시에, 대규모 데이터를 처리할 수 있는지

더불어 데이터 구축 시에는 2단계로 분리하여 작업을 진행하는 것이 좋습니다. 즉 파일럿 작업을 진행한 후 본 구축에 돌입하는 것이 데이터의 품질을 높일 수 있는 핵심입니다. 본 구축에 들어가기에 앞서 소규모로 구축하는 시험용 데이터를 구축하고, 데이터 설계 시 발견하지 못한 이슈 및 문제점을 사전에 파악하고 개선해야 합니다. 이 과정을 통해 가이드라인을 보완 및 개정을 한 후 데이터셋 구축 목적을 고려하여 작업자를 선정할 수 있습니다.

이후 본 구축 시 기간 내 데이터셋이 구축될 수 있도록 작업 일정 및 작업자를 관리하고, 중간 검수를 통해 올바르게 데이터가 라벨링 되고 있는지 지속해 확인하여 양질의 데이터를 생성해야 합니다.

9. Data Internal Factor Verification (데이터 내재적 요소 검수)

작업자가 구축한 데이터를 스스로 혹은 다른 작업자가 검수하는 단계입니다. 사람이 작업을 진행하기에, 당연히 발생할 수 있는 실수를 바로잡고 판단이 어려운 엣지 케이스(Edge case)의 경우 토론을 통해 결론을 도출하는 작업이죠. 해당 단계는 데이터 품질을 보장하기 위해 반드시 거쳐야 하는 단계입니다.

해당 단계에서 반드시 고려해야 하는 것이 바로 ‘Consensus Labeling’입니다. 즉 데이터 라벨링 일치도를 확인하는 작업이며, Inter Annotator Agreement(IAA)라는 평가 지표를 통해 확인이 가능합니다. 작업자도 사람이기에 실수가 존재할 수도 있고, 가이드라인을 잘못 이해하여, 다른 작업자들과의 레이블 결과가 유별나게 다르게 진행했을 수도 있습니다. 이에 이러한 실수를 감지하고 방지하기 위해, IAA를 통해 레이블 일치성을 확인해야 합니다.

결론적으로 Data Internal Factor Verification은 데이터 작업물의 내재적 요소에 대한 검증을 진행하는 것입니다. 그러나 해당 작업은 데이터 외적인 요소, 더 나아가 모델과 데이터 간의 관계성 (즉, 데이터가 실제로 모델 성능 향상에 도움이 되는 데이터인가) 등에 대한 검증은 진행하지 못합니다. 이에 별도로 해당 단계에 대한 검증을 진행하는 Data Extrinsic Factor Verification, Data evaluation through model verification을 추가로 설명해 드리고자 합니다.

10. Data Extrinsic Factor Verification (데이터 외재적 요소 검수)

구축된 데이터를 검증하는 단계입니다. 데이터 검증 시 먼저 최종 데이터가 가이드라인을 잘 따라 만들어졌는지 파악하여야 합니다. 또한 1) 데이터 충분성 (Sufficiency), 2) 데이터 다양성 (Diversity), 3) 데이터 신뢰성 (Trustworthiness), 4) 개인정보 및 보안성, 5) 데이터 윤리 적합성을 추가적으로 검토해야 합니다. 즉, 데이터의 내부적인 정보에서 더 나아가 데이터의 충분성, 다양성, 신뢰성, 보안성, 윤리성 등을 학제적으로 검토하는 단계입니다. 이러한 검증은 Institutional Review Board 혹은 외부 자문 위원들을 통해서 진행하는 것이 가장 좋습니다.

11. Data Evaluation through Model Verification (모델을 통한 데이터 품질 평가)

실제 모델링을 통해 데이터 품질을 평가하는 단계입니다. 데이터의 양을 늘려가면서 데이터 효율성(Data Efficiency)를 보는 실험, 데이터의 구간을 분리하여 데이터의 품질 일관성을 검증하는 실험 등을 통해 전반적으로 데이터가 제작 목표와 요구사항에 맞게 제작이 되었는지 양적으로 검증하는 단계이지요. 만약 해당 단계를 진행하면서, 우리의 목적과 부합하지 않는 부분이 있다면 작업자 교육부터 데이터 검증까지의 과정을 다시 거쳐야 합니다. 즉 모델을 통해 에러를 발견하고, 사람을 통해 클리닝을 진행하는 human in the loop cycle이 중요합니다. 지속적인 사이클을 통해 error free할 뿐만 아니라, 모델의 결과와 합이 잘 맞는, 즉 모델의 결과와 유기성 있는 데이터를 만드는 것이 핵심입니다.

12. Data Deliverables (데이터 전달)

최종 데이터 산출물을 전달하는 단계입니다. 즉 모델팀 혹은 고객사에 작업이 완료된 데이터를 전달하는 과정입니다. 전달할 때는 프로토콜에 맞는 버전 관리가 중요하며, 데이터셋의 라벨 분포를 비롯한 샘플 데이터의 형태까지 밝혀주는 것이 중요합니다. 더 나아가, EDA 과정을 거친 후, 데이터 분석서 및 품질 평가서를 함께 전달하는 것이 좋습니다.

블로그 포스팅 1편에서 설명해 드린 Industry에서 좋은 데이터의 척도로 “meta data가 얼마나 informative한지”, “(작업자에 대한) 정당한 보상이 이루어진 데이터 = 작업자에게 정당한 보상을 하되, 불필요한 비용이 지급되지 않는 데이터인지”, “Versioning 체계가 잘 이루어졌는지”, “데이터 저장 구조가 직관적이고 깔끔한지” 등도 좋은 데이터의 척도로 볼 수 있다고 말씀드렸습니다. 이러한 요소들이 결합할 때 결국 good data에서 great data로 만들어 줍니다.

DMOps의 미래

그렇다면 미래의 데이터 관련 연구는 어떤 것을 진행해야 할까요? 예전에는 모델과 모델의 경쟁이었다면, 이제는 모델과 사람의 경쟁입니다. 그렇기에 더더욱 human gold standard가 필요하고, 이것이 기준점이 되어야 할 것입니다. 더 나아가서 superGLUE처럼 난이도가 굉장히 높은 영역에 대한 human gold standard 데이터를 구축하여, 아직 모델이 사람의 능력보다 훨씬 미치지 못하는 다양한 task를 고민해야 할 것입니다. 즉 데이터와 사람은 필연적인 관계입니다.

그러면서도 많은 부분을 자동화해야 합니다. 사람의 역할을 하는 많은 step들에 대해서 효율성을 부여하여 자동화 작업을 진행하는 것이 필요합니다. Self labeling을 통해 모델이 예측한 합성 데이터를 사람이 검수하여, 마치 진짜 사람이 라벨링 한 것과 같은 효과를 불러일으키는 데이터에 대한 연구를 진행해야 하는 것이 중요합니다. 이는 ChatGPT, GPT-4 등과 같은 LLM을 이용하여 데이터를 자동 생성하는 방안이 고려되어야 함을 의미합니다.

마지막으로 평가에 대한 고려를 깊이 있게 진행해야 합니다. 인공지능 논문들을 살펴보면 정량평가에 대한 연구는 정말 많이 나오고 있으나, 휴면 평가에 대한 기준은 극히 드뭅니다. 휴먼평가에 대한 명확한 기준과 체계를 설계하는 것이 중요하다고 생각합니다. 더불어 테스트셋을 구축할 때, 단순히 정답만 라벨링 하는 것이 아닌, 이것이 왜 정답인지, 왜 이렇게 라벨링 했는지에 대해서 설명할 수 있는 데이터를 구축해야 하는 것도 미래의 중요한 연구 주제 중 하나가 될 것입니다.

본 포스팅을 통해 고품질의 데이터를 기업의 필요 사항에 맞게 효율적으로 제작할 수 있으며 범용적으로 적용할 수 있는 데이터 파이프라인인 DMOps를 소개해 드렸습니다. 저희 업스테이지의 포스팅을 통해 다양한 기업에서 데이터가 어떻게 제작되는지 간접적으로 경험하는 좋은 계기가 되었길 바라봅니다.

 
 
 
  • 2020년 10월 설립한 업스테이지는 이미지에서 원하는 정보를 추출해 이용할 수 있는 OCR기술을 비롯, 고객 정보와 제품 및 서비스 특징을 고려한 추천 기술, 의미기반 검색을 가능케하는 자연어처리 검색기술 등 최신 AI 기술을 다양한 업종에 맞춤형으로 손쉽게 적용할 수 있는 노코드-로코드 솔루션 ‘Upstage AI Pack’을 출시, 고객사들의 AI 혁신을 돕고 있다. Upstage AI Pack을 이용하면 데이터 가공, AI 모델링, 지표 관리를 쉽게 활용할 수 있을 뿐 아니라 지속적인 업데이트를 지원, 상시 최신화 된 AI 기술을 편리하게 사용할 수 있다. 더불어, AI 비즈니스 경험을 녹여낸 실습 위주의 교육과 탄탄한 AI 기초 교육을 통해 AI 비즈니스에 즉각 투입될 수 있는 차별화된 전문 인재를 육성하는 교육콘텐츠 사업에도 적극 나서고 있다.

    업스테이지는 구글, 애플, 아마존, 엔비디아, 메타, 네이버 등 글로벌 빅테크 출신의 멤버를 중심으로 NeurlPS를 비롯, ICLR, CVPR, ECCV, WWW, CHI, WSDM 등 세계적 권위의 AI 학회에 다수의 우수 논문을 발표하고, 온라인 AI 경진대회 캐글(Kaggle)에서 국내 기업 중 유일하게 두 자릿수 금메달을 획득하는 등 독보적인 AI 기술 리더십을 다지고 있다. 업스테이지 김성훈 대표는 홍콩과학기술대학교 교수로 재직하면서 소프트웨어공학과 머신러닝을 융합한 버그 예측, 소스코드 자동생성 등의 연구로 최고의 논문상인 ACM Sigsoft Distinguished Paper Award 4회 수상, International Conference on Software Maintenance에서 10년 동안 가장 영향력 있는 논문상을 받은 세계적인 AI 구루로 꼽히며, 총 700만뷰 이상을 기록한 ‘모두를 위한 딥러닝’ 강사로도 널리 알려져 있다. 또한, 업스테이지의 공동창업자로는 네이버 Visual AI / OCR 을 리드하며 세계적인 성과를 냈던 이활석 CTO와 세계 최고의 번역기 파파고의 모델팀을 리드했던 박은정 CSO가 참여하고 있다.

    업스테이지 홈페이지 바로가기

 
Previous
Previous

AskUp 레몬 스파클 하이볼 출시 [업스테이지 X 부루구루]

Next
Next

New, AskUp - 사랑받는 브랜드 리뉴얼하기 (리브랜딩)