한국어 AI 경쟁력을 강화하는 ‘Open Ko-LLM 리더보드’ - [스타뷰 Vol. 10]

People & Culture

Dec 18

2023/12/18   |  4 mins

송지은 (People eXperience)
한국어 LLM의 생태계에 관심 있으신 분
한국어 LLM의 생태계 확대와 경쟁력을 강화하기 위한 ‘Open Ko-LLM 리더보드’가 개설 3개월여만에 제출된 모델이 600개를 넘어섰습니다!
스타들의 업스테이지 이야기를 담는 스타뷰에서 지금의 Open Ko-LLM 리더보드를 있게 한 LLM 엔진팀 스타분들의 인터뷰를 만나 보세요.
✔️ Open Ko-LLM 리더보드 개설 배경
✔️ Open Ko-LLM 리더보드의 강점
✔️ Open Ko-LLM 리더보드 오픈 이후 실적
✔️ Open Ko-LLM 리더보드의 평가지표
✔️ Open -Ko-LLM 리더보드의 청사진
✔️ 국내 LLM 생태계 활성화를 위한 또 다른 계획
✔️ 2024년 새해 계획
✔️ 중요하게 생각하는 Upstage Way와 실천 노하우
✔️ 업스테이지 스타분들께 전하는 한마디

한국어 LLM 생태계에 값진 숨결을 불어넣는 업스테이지,
“더 많은 사람들이 뛰어놀 수 있는 장, ‘Open Ko-LLM’이 되었으면 합니다”

한국어 거대 언어 모델(LLM) 평가 리더보드 ‘Open Ko-LLM’에 등록된 모델이 불과 3개월여 만에 600개를 넘어섰습니다. 지난 9월부터 업스테이지가 한국지능정보사회진흥원(NIA)과 함께 구축/운영하고 있는 Open Ko-LLM 리더보드의 놀라운 소식인데요!

영어 위주의 기존 평가체제에서 명실상부 ‘한국어’ 데이터를 기반으로 한 리더보드로, 누구나 자신이 개발한 한국어 LLM을 등록하고 다른 모델과 경쟁할 수 있어 산학계의 주목을 받고 있습니다.

LLM의 때가 무르익은 요즘, 그야말로 한국어 LLM 생태계의 좋은 양분을 쌓는 바탕이자 힘이 되고 있는 ‘Open Ko-LLM 리더보드’를 있게 한 주역, LLM팀의 박찬준님과 김현우님을 2023년의 마지막 스타뷰 주인공으로 소개합니다.

Q. 반갑습니다. 두 분 소개 부탁드립니다.

박찬준: 안녕하세요, 저는 현재 LLM팀에서 Technical Leader를 담당하고 있는 박찬준이라고 합니다. LLM과 관련한 데이터와 평가쪽을 담당하고 있는 Data-Centric LLM 파트를 리딩하고 있으며, 1T 클럽, Open Ko-LLM 리더보드와 더불어 LLM 데이터와 관련된 다양한 내부 프로젝트를 리딩하고 있습니다.

김현우: 안녕하세요, 저는 현재 LLM팀에서 Research Engineer를 하고 있는 김현우입니다. MathGPT의 개발과 Open Ko-LLM 리더보드를 포함한 LLM 관련 다양한 프로젝트를 진행하고 있습니다.

Q. Open Ko-LLM 리더보드를 개설하게 된 배경은 무엇인가요?

Open Ko-LLM 리더보드 로고 및 홈페이지와 상식 생성 데이터 예시

박찬준: Open Ko-LLM 리더보드를 통해 한국어 LLM 평가 생태계가 구축되길 바랐고, 서로의 연구 결과를 투명하게 공유하고, 숨겨진 LLM 관련 인재들를 발굴할 수 있길 희망했습니다. 결국 한국어 관련 LLM의 판을 더 확장하기 위한 노력의 일환이었는데요.

LLM 시대가 도래함에 따라, 가장 중요한 키워드는 바로 '생태계'라고 생각합니다. 이는 OpenAI가 GPT 시리즈와 App Builder를 개방한 것, Hugging Face의 NLP 민주화, 네이버의 Generative AI 생태계 구축 등에서도 명확하게 드러납니다. 이와 같은 흐름에 저희도 동참하고 싶었고, 한국의 LLM 데이터와 더불어 평가 생태계를 구축하고 싶어 빠르게 도전해보았습니다.

한국지능정보사회진흥원(NIA)과 협약을 맺으며 신호탄을 울렸고, 그후로부터 한 달만에 리더보드를 오픈할 수 있었습니다. OpenLLM 리더보드가 영어 관련 LLM 벤치마크에서 공신력이 있는 만큼 저희도 Task와 플랫폼 모두 재현하기 위해 노력하였고, 상식 정보 문제를 더 심층적으로 검증하기 위해, 제가 나온 연구실인 고려대학교 임희석 교수님 연구팀과 협업하여 KoCommonGen V2를 리더보드 Task로 추가 채택하였습니다.

리더보드를 잘 운영하기 위해서는 탄탄한 인프라가 핵심인데요. GPU 관련하여 KT가 과감히 서포팅을 결정해주셨고, 최근 허깅페이스에서도 CPU Upgrade 지원을 흔쾌히 해주셨습니다. 고무적인 점은 세계적인 자연언어처리 기업인 허깅페이스와 직접적인 소통 창구가 Open Ko-LLM을 통해 만들어지고, 새로운 일을 추진하기 위해 지속적으로 소통중이라는 점입니다.

Q. 기존 허깅페이스 대비 Open Ko-LLM 리더보드가 갖는 강점은 무엇인가요?

박찬준: 기본적으로 허깅페이스는 영어 기반 벤치마크 데이터를 채택하고 있고, 저희는 한국어 벤치마크 데이터를 채택하고 있습니다. 가장 결정적인 차이는 테스트셋을 공개하지 않는 것이 특징입니다. 영어 리더보드는 테스트셋까지 오픈이 되어 있는데요. 이는 2021년 부터 기존에 공개된 밴차마크 데이터셋을 그대로 차용하고 있기 때문입니다. 그러나 저희의 경우, Open Ko-LLM을 위해 모든 데이터를 새로 구축하였고 전면 Private하게 운영하고 있습니다.

오픈을 하면 물론 정말 더 큰 임펙트와 연구자들에게 더 큰 도움이 될 수 있고 벤치마크로서의 가치가 상승함을 잘 이해하고 있습니다. 그러나 이번 리더보드 만큼은 테스트셋 오염을 없애고, 최대한 공정한 비교를 위하여 전면 Close Set으로 운영하기로 결정하였습니다.

또 다른 강점으로는 공신력 있는 기관이 운영에 함께한다는 점입니다. 업스테이지를 비롯해 국기 기관인 NIA, KT, 고려대 등 운영을 함께 하고 있어 더욱 신뢰할 수 있다고 생각합니다.

김현우: 찬준님께서 언급한 것처럼 한국어 벤치마크를 통해서, 한국어 LLM 모델의 성능을 평가할 수 있다는 점이 가장 큰 강점입니다. 그리고, 이달의 LLM 수상자에 대한 선정을 하여 리더보드에 참여하는게 개인의 스펙이 될 수 있게 도움 드리려고 하고 있습니다.

‘Open Ko-LLM 리더보드’ 11월 우수개발자-이달의 LLM 시상식 모습 (출처: 인공지능신문)

Q. Open Ko-LLM 리더보드 오픈 이후 실적은 어떤가요?

박찬준: 리더보드 개설 3개월여 만에 600개가 넘는 모델들이 올라오고 있습니다. 사실 처음 기획할 때 연말까지 200개 정도 올라오지 않을까 생각했었는데, 저희가 상상했던것 이상으로 많은 분들이 참여해주셔서 감사한 마음입니다. 특히, 개인 연구자부터 KT, 롯데정보통신 마음AI, 포티투마루(42Maru), 한국전자통신연구원(ETRI), KAIST, 고려대학교 등 다양한 기업과 학계 조직들이 각축을 벌이는 점이 인상 깊었습니다. 특히 KT의 믿음 7B가 올라와서 7B 이하 모델에서 1등을 차지하고, 모든 분들이 믿음을 사용할 수 있게 된점이 기억에 남는 거 같습니다.

원조 리더보드인 허깅페이스는 현재 2200개가 넘는 모델들이 운영되고 있습니다. 이에 비교하여서 개수만 비교했을 때 오픈 두달만에 4분의 1 수준으로 따라 왔습니다. 굉장히 고무적인 점이라고 생각합니다. 마지막으로 Open Ko-LLM을 통해 허깅페이스와 직접적인 소통의 창구가 마련되었고, 이를 기반으로 연구적 협력 관계를 추진할 뿐만 아니라, 실제 CPU 인프라 서포트도 받고 있습니다.

김현우: 기업부터 시작해서 개인의 참여가 많이 이루어지고 있고, 첫주에는 제출이 50개 미만이었는데 갈수록 신규 제출의 수가 늘어서 가장 많았던 주는 100개 이상도 제출 된 주가 있었습니다.

개인 참여자분들이 좋은 성능 거두었던 것도 인상 깊었고, 또 해당 리더보드가 PR의 현장이 되어서 참여자분들이 여러 성과를 SNS에 공유해주셨던 점도 기억에 남습니다. 개인적으로 해당 리더보드가 많은 분들에게 좋은 기회가 되었으면 했는데 실제로 이루어지고 있는 것 같아서 기뻤습니다.

Q. Open Ko-LLM 리더보드의 평가지표는 무엇인가요?

박찬준: Open Ko-LLM Leaderboard에서는 다음과 같은 5가지 종류의 평가 방법을 채택하고 있습니다

ARC (AI2 Reasoning Challenge)
- 과학적 사고와 이해를 평가하기 위한 테스트임. 과학 문제를 해결하는 데 필요한 추론 능력을 측정함
- 이는 복잡한 추론, 문제 해결 능력 및 과학적 지식의 이해를 평가하는 데 사용됨
HellaSwag
- 상황 이해와 상황 예측 능력을 평가함
- 주어진 상황에서 가장 가능성 있는 다음 시나리오를 예측하는 능력을 테스트함
- 이는 모델이 상황에 대한 이해와 추론 능력을 보여주는 지표로 사용됨
MMLU (Massive Multitask Language Understanding)
- 다양한 주제와 분야에 걸쳐 언어 이해 능력을 평가함
- 이는 모델이 다양한 도메인에 걸쳐 얼마나 잘 작동하는지를 보여주는 광범위한 테스트임
Truthful QA
- 모델의 진실성과 사실 정확성을 평가함
- 진실한 답변을 제공하는 능력이 중요한 지표로 사용
KoCommonGEN V2
- LLM이 주어진 조건에 따라서 한국어 상식에 부합한 결과물을 만들 수 있는지 평가함

Q. Open -Ko-LLM 리더보드의 향후 청사진은 무엇인가요?

박찬준:

첫째로는 Task의 확장입니다. 현재 5개의 테스크를 운영하고 있지만 아직 윤리적인 부분, Factual Grounding과 관련한 정밀한 평가가 필요합니다. 이러한 부분에 있어서 다양한 기업 및 학계와 협업하여 Task를 더더 확장하고자 합니다.

둘째로는 평가 대상의 확장 입니다. 한국어 뿐만 아니라 다른 나라 언어도 확장하여 운영하면 좋을 듯 하고, 코드 데이터의 중요성이 부각되고 있는데 코드 언어모델 평가 관련하여서도 운영할 계획을 가지고 있습니다.

세번째로는 평가방식의 새로운 도전입니다. Static한 평가 방식이 아닌 Dynamic한 평가 방식으로 모델을 평가하면 어떨까하는 생각이 있습니다. 현재 리더보드 모델들은 실세계를 고려했을 때 여러가지 한계점이 있다고 생각합니다.

오래된 데이터: SQUAD, KLEU 등의 데이터는 시간이 지날수록 구식이 되어가고 있습니다. 데이터는 DNA와 같이 계속해서 변형되고 발전합니다. 그러나 기존 리더보드들은 데이터가 그 시대에 머물러 있기에, 현 시점을 잘 반영하는 데이터로 보기 어렵습니다. 현실 세계에서는 하루에도 수백개의 데이터가 생성되기 때문입니다.
고정된 데이터: 데이터가 항상 고정되어 있습니다. 이는 Data-Centric AI도 마찬가지입니다. 변형을 할 수 있어도 그 내에서 이뤄지기 때문입니다. 최근 외부 데이터를 사용할 수 있게하는 리더보드도 물론 존재하지만, 공정하지 않다는 지적이 많습니다. 현실 세계에서는 데이터가 고정되어 있지 않습니다. 항상 새로운 데이터가 쌓이고 continual learning을 통해 모델은 지속적으로 발전합니다.
Real World를 반영하지 못함: 기업이 B2B, B2C 서비스를 진행하면, 데이터는 끊임없이 user 혹은 indusrty를 통해 쌓이고, edge case, outlier들이 지속적으로 발생합니다. 이러한 것에 잘 대응을 하는 것이 진정한 기업의 경쟁력이나, 현 리더보드 시스템으로는 이러한 능력을 측정할 방법이 존재하지 않습니다. 현실 세계의 데이터는 지속적으로 생성되고, 변화하고, 발전합니다.
과연 진정 유의미한 경쟁일까?: 테스트셋에 맞추어 리더보드 대응을 하는 경우가 많습니다. 즉 이는 테스트셋 내에서만 잘하는 모델의 또 다른 의미의 overfitting을 야기할 수 있습니다. 즉 현재의 리더보드 시스템은 leaderboard-centric하게 운영되지 real-world-centric하게 운영되지 않고 있는 것이 문제점 중 하나입니다.

위에서 꼽은 문제점을 완화하기 위해 새로운 패러다임의 리더보드를 운영해보면 어떨까 하는 생각이 있습니다. 바로 데이터가 지속적으로 매일 매일 추가되고, 자가 증식하는 리더보드 데이터셋인데요.

더불어 리더보드의 노하우들을 담아서 Paper도 작성해보면 좋을 거 같습니다. 마지막으로 새로운 계획이라기 보다 지속성이 중요하다고 생각합니다. 이에 대한 방안을 계속 내부적으로 고민해볼 예정입니다.

Q. 국내 LLM 생태계 활성화를 위해 업스테이지/팀에서 계획한 바는 무엇인가요?

박찬준:

제가 리딩 중인 Data-Centric LLM 조직에서는 Model Centric & Data Centric을 넘어서 Value Driven LLM을 목표로 하고 있습니다. LLM으로 가치를 만들어낼 수 있고, 생태계를 만들 수 있는 일에 관심이 많습니다. 데이터 공유 생태계를 만들어보기 위해 Up 1T Club을 운영하고 있고, 한국어 LLM 평가 생태계를 위해 Open Ko-LLM 리더보드를 운영하고 있으며, 한국어 데이터 전처리 생태계를 형성하기 위해 Dataverse라는 오픈소스 프로젝트도 진행하고 있습니다. LLM 자체의 생태계가 아닌, LLM을 활용한, LLM을 일종의 Tool로 활용하여 어떠한 Value를 끌어낼 수 있을지에 대해서 고민하고 있습니다.

김현우:

팀 내에서 계속해서 좋은 한국어 모델을 만들기 위해 시도하고 있고, 해당 노하우를 잘 녹여내서 페이퍼로도 쓸 계획이 있습니다. 또한, Ko-LLM 리더보드 이외에도 다양한 과제에 대한 리더보드도 운영할 계획도 하고 있는 상태입니다.

Q. 다가오는 2024년, 어떤 계획이 있으신가요?

박찬준: 2024년 계획을 지금 세워도, 워낙 빠르게 변해서 또 조정해야하지 않나라는 생각을 가지고 있습니다. 이와 무관하게 언제든 빠르게 전환할 수 있고, 빠르게 적응할 수 있는 기초 공사와 업무의 강건성을 높이는게 연말까지의 목표입니다. 데이터 쪽을 리딩하는 입장에서 고품질의 한국어 데이터 구축을 연말까지 어느 정도 마무리를 진행하고, Next Step인 다국어 확장, 멀티모달 등에 대해 미리 연말에 대비를 해야하지 않을까 생각 중입니다.

2024년에는 LLM으로 국내에서 가장 많은 매출을 올릴 뿐만 아니라, 글로벌 확장을 목표로 진행하고 있습니다. 세계에서 인정받고, 신뢰받는 LLM을 개발하는 것이 목표입니다. 궁극적으로 글로벌 진출, 매출 극대화를 떠나서 고객이 만족하는 LLM을 개발하는 것이 목표입니다.

개인적인 소망은 Open Ko-LLM 처럼 한국 LLM 생태계에 기여를 할 수 있었으면 좋겠습니다. 그게 어떤 형태가 되든 간에, 많은 사람들이 뛰어놀 수 있는 장을 만드는 것이 개인적인 목표입니다.

김현우: 단기적으로는 현재 맡고있는 콴다와 함께하는 MathGPT 개발 프로젝트가 있는데, 좋은 성과 거두어서 Math 리더보드에서의 SOTA 달성과 후속 계약으로 이루어지는 걸 목표하고 있습니다. 지금은 수학이라는 분야에 한정해서 진행하고 있지만 이를 확장해서 다른 분야들과 결합해서 다른 분야까지 잘하는 LLM을 만들어보고 싶습니다.

작년 이맘때쯤 스타뷰에서 올해에는 추천대회에서 좋은 성적 거두고 논문으로 써보겠다고 했고 이를 이루었는데요, 내년에는 올해 진행하는 LLM 주제를 가지고 좋은 연구를 해서 논문으로 작성해보는 걸 목표로 하고 있습니다.

Q. 중요하게 생각하는 Upstage Way와 실천 노하우를 공유해주세요.

박찬준: Sharing 관점에서 ‘한 판 정리’ 문화를 정착하고 있습니다. “한계라 생각될 때 한개더”라는 마음가짐으로 일하고 있습니다. 업스테이지가 주도적으로 어떠한 생태계를 만들어간다는 느낌이 굉장히 즐겁고 설레는 일입니다. 힘들지만 최대한 긍정적으로 상황을 해석하고 즐겁게 일하는 것이 가장 중요한 거 같습니다. 안될 거 같은 일도, 일단 해보고 판단하는 게 중요할 거 같습니다.

김현우: 공유 및 One team이 중요한 것 같습니다. 업스테이지에 와서 가장 좋은 문화라고 생각하는 점인데, 다른 분들이 무엇을 하고 있는지 노션 혹은 업스퀘어 통해서 바로 알 수 있고 업무 중 도움이 필요할때 다들 망설임 없이 서로 도움 주고 받는 점에서 많은 감동을 느끼고 있습니다. 최대한 하고 있는 업무들, 실험한 내용들 매일 혹은 주 마감할때 정리하는 식으로 공유할 수 있도록 하고 있고, 도움 받은 만큼 최대한 도움줄 수 있는 사람이 되려고 노력하고 있습니다.

Q. 업스테이지 스타분들께 전하는 한마디!

박찬준: 다들 너무 열심히 일하고 계신데 건강 챙기면서 일하셨으면 좋겠고, 최대한 긍정적으로 생각하여 재미있게 일할 수 있었으면 좋겠습니다. 힘든 상황에서도 터널은 끝이 있음을 믿고 포기하지 말고, 잘 인내하며 함께 나아갔으면 좋겠습니다.

김현우: 요새 날씨가 쌀쌀해지면서 스타분들의 감기소식이 많은데, 감기 조심하시고 건강 챙기면서 일하시면 좋을 것 같습니다. 프로젝트 좋은 결과 만들려고 다들 고생중이신데, 하시는 일들 모두 잘 풀리길 기원합니다.

☀️ Solar LLM

[NEW] Upstage’s Solar 10.7B

Introducing a new 10.7B model that outperformed all competing models on the Open LLM Leaderboard.

Meet Solar 10.7B →

←블로그 돌아가기

Hailey(박성민) .