업스테이지 LLM, ‘Solar Mini’ 퍼포먼스 리포트

작지만 강력한, 업스테이지 자체 LLM 모델 ‘Solar Mini’

30B 미만 모델 중 압도적 최고

세계가 인정한 LLM, ‘Solar(솔라)’의 시대가 도래했습니다. 솔라는 업스테이지에서 개발한 대규모 언어 모델(Large Language Model, LLM)로 지난 12월, Hugging Face의 Open LLM 리더보드에서 1위를 차지하며 화제를 모았습니다. Solar Mini는 컴팩트한 크기임에도 GPT-3.5와 유사한 수준의 답변을 2.5배 빠른 속도로 제공합니다. Solar Mini가 LLM 모델 크기를 혁신적으로 축소하면서도 성능을 유지할 수 있었던 방법을 소개합니다.

Solar의 강점

소형 LLM이 필요한 이유
대규모 언어 모델(Large Language Models, LLMs)을 실제 애플리케이션에 통합하는 데 있어 크기는 매우 중요한 요소가 되었습니다. 작은 모델을 사용하면 계산 시간을 효과적으로 단축할 수 있으며, 결과값 출력에 소요되는 시간이 줄면서 반응성과 효율성이 향상됩니다. 이러한 효과로 인해 특정 분야와 서비스에 맞추어 사용하게 될 때에도, 최적화에 필요한 인력과 리소스 또한 줄어들게 됩니다. 또한, 크기가 작으면 장치 내에 LLM을 넣는 온디바이스 AI 또한 가능해지며, 사용자의 로컬 장치에 직접 AI 기능을 제공할 수 있게 됩니다. 온디바이스로 LLM을 사용하는 것은 접근성을 향상시킬 뿐만 아니라 GPU 자원에 대한 의존성을 줄여, 합리적인 가격에 고성능의 AI 솔루션을 도입할 수 있는 새로운 길을 열어줍니다.

컴팩트한 크기, 강력한 성능
Solar Mini는 탁월한 성능을 위해 큰 크기가 필요하지 않다는 것을 증명합니다. Llama2, Mistral 7B, Ko-Alpaca, KULLM 등 경쟁자들을 다양한 벤치마크에서 능가했습니다.

Evaluation results for SOLAR 10.7B and SOLAR 10.7B-Instruct along with other top-performing models. (Source: SOLAR 10.7B: Scaling Large Language Models with Simple yet Effective Depth Up-Scaling) — Solar 10.7B 와 Solar 10.7B-Instruct 모델의 벤치마크 데이터셋 평가 결과 (출처 : SOLAR 10.7B: Scaling Large Language Models with Simple yet Effective Depth Up-Scaling)

Solar Mini 구축 과정

기본 구조
Solar Mini의 기본 아키텍처는 32 Layer Llama2 구조를 기반으로 하며, Llama2 아키텍처와 호환되는 최고 성능 모델 중 하나인 Mistral 7B의 사전 훈련된 가중치로 훈련을 시작합니다.
Depth Up-scaling (DUS)
Solar Mini는 어떻게 컴팩트한 크기를 유지하면서도 놀랍도록 강력해졌을까요? 저희의 스케일링 방법인 ‘Depth Up-scaling’(DUS)은 깊이별 스케일링과 지속적인 사전 훈련으로 구성됩니다. DUS는 다른 스케일링 방법들보다 훨씬 간단하고 효율적인 작은 모델의 확장을 가능하게 합니다.

Mixture of Experts (MoE)과 달리 DUS는 복잡한 변경이 필요 없습니다. 추가 모듈이나 동적 요소 없이 바로 호환되며, Hugging Face와 같은 사용하기 쉬운 LLM 프레임워크와 모든 트랜스포머 아키텍처에 적용 가능합니다.

Continued Pre-training (지속적 사전학습)
Depth Up-scaling 직후에는 모델의 성능이 베이스 LLM보다 떨어집니다. 따라서, 확장된 모델의 성능을 회복하기 위해 지속적인 사전학습을 하게 됩니다.

Instruction Tuning

이 단계에서 모델은 특히 한국어에 대한 Instruction Tuning을 진행하여 한국어 능력을 향상시킵니다. LLM이 쿼리의 지시에 정확하게 따르도록 훈련시키기 위해 질문과 답변 형식으로 튜닝하는 과정입니다.

Alignment Tuning

Instruction Tuning된 모델은 인간이나 기존의 강력한 LLM이 선호하는 답변에 알맞은 답을 내놓을 수 있도록 튜닝됩니다.

컴포넌트들과 함께 Solar 사용하기

RAG

Solar Mini는 특히 RAG(Retrieval-Augmented Generation) 시스템과 잘 작동합니다. LLM의 사이즈가 큰 경우, LLM은 기존에 사전학습한 지식에 더 의존하여 질문에 답하게 되는 경향이 생깁니다. 소형 모델인 Solar Mini는 RAG를 보다 효과적으로 활용하여 출력의 정확성과 관련성을 높임으로써 그 정확도와 신뢰성을 강화합니다.

Layout Analyzer
Solar Mini와 함께 사용할 수 있는 컴포넌트로 문서를 형식대로 읽어내는 Layout Analyzer도 있습니다. 어떤 문서에서든 표와 그림을 추출하는 이 모델은 PDF, PNG, JPG 데이터를 OCR 및 레이아웃 분석 모듈을 통해 처리합니다. 복잡한 형식의 문서도 사람이 읽는 방향과 방식대로 HTML로 변환함으로써, LLM에 바로 입력할 수 있는 데이터 형태가 됩니다.
마무리하며
Solar Mini는 컴팩트한 사이즈를 바탕으로 다양한 서비스와 새로운 비즈니스 시도에 적용될 수 있는 강점을 갖고 있습니다. 빠른 속도뿐만 아니라 높은 도메인 및 서비스 적용성, 그리고 온디바이스 가능성에 이르기까지 다재다능한 Solar의 발전을 기대해 주세요.
더 알아보기 : Solar 논문 / Hugging Face / Poe
Solar Mini는 Apache 2.0 라이선스 하에 공개적으로 이용 가능합니다.

☀️ Solar LLM

비용효율적이고 가볍지만 강력한 Solar Mini를 사용해보세요!

업스테이지의 작지만 강력한 Solar의 성능과 도입방법이 더 궁금하시다면?

Contact Us →

←블로그 돌아가기