스마티지와 글 읽기 – The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation

https://ai.meta.com/blog/llama-4-multimodal-intelligence/

 

이 문서는 Meta AI가 새롭게 출시한 Llama 4 모델군(Llama 4 herd), 특히 Llama 4 Scout와 Llama 4 Maverick 모델을 소개하는 발표문입니다. 핵심 내용은 다음과 같습니다.

  1. 새로운 모델 출시: Llama 4 Scout (17B 활성 파라미터, 16개 전문가)와 Llama 4 Maverick (17B 활성 파라미터, 128개 전문가)를 공개합니다. 이 모델들은 Meta 최초의 개방형 가중치(open-weight) 네이티브 멀티모달 모델이며, 전문가 혼합(Mixture-of-Experts, MoE) 아키텍처를 사용합니다.
  2. 향상된 성능 및 효율성:
    • Scout: 동급 최고 성능의 멀티모달 모델로, 단일 H100 GPU에 적합하며, 1,000만 토큰이라는 업계 최고 수준의 컨텍스트 길이를 지원합니다. 이전 Llama 모델보다 강력하며, 경쟁 모델(Gemma 3, Gemini 2.0 Flash-Lite, Mistral 3.1)보다 우수한 성능을 보입니다.
    • Maverick: 동급 최고 성능의 멀티모달 모델로, GPT-4o, Gemini 2.0 Flash를 능가하며, DeepSeek v3와 유사한 추론/코딩 성능을 더 적은 활성 파라미터로 달성합니다. 뛰어난 성능 대비 비용 효율성을 제공합니다.
  3. Teacher 모델 (Behemoth): 이 모델들의 성능 향상은 아직 훈련 중인 Llama 4 Behemoth (288B 활성 파라미터, 16개 전문가, 약 2조개 총 파라미터)로부터 증류(distillation) 기술을 통해 이루어졌습니다. Behemoth는 GPT-4.5, Claude Sonnet 3.7, Gemini 2.0 Pro 등 경쟁 모델을 STEM 벤치마크에서 능가하는 강력한 모델입니다.
  4. 기술 혁신:
    • MoE 아키텍처: 훈련 및 추론 효율성 증대.
    • 네이티브 멀티모달리티 (Early Fusion): 텍스트, 이미지, 비디오 토큰을 통합하여 사전 훈련.
    • 긴 컨텍스트 길이 지원 (Scout 10M): 새로운 아키텍처(iRoPE) 및 훈련 기법 적용.
    • 효율적 훈련: FP8 정밀도 사용, MetaP 하이퍼파라미터 설정 기법.
  5. 개방성 강조: Scout와 Maverick 모델은 llama.com 및 Hugging Face를 통해 다운로드 가능하며, 오픈 소스 생태계를 통한 혁신을 지속적으로 추구합니다.
  6. 안전성 및 편향성 완화: Llama Guard 등 안전 도구를 제공하고, 모델 개발 전 과정에서 안전 조치를 통합하며, 정치적/사회적 편향성을 줄이기 위한 노력을 기울이고 있음을 강조합니다.

 

저스틴) 다음과 같은 5가지에 대해 설명해 주기를 요청했습니다.

네, 요청하신 5가지 항목에 대해 하나씩 쉽게 설명해 드리겠습니다.


1. MoE 아키텍처 (사전 훈련 섹션)

  • MoE는 “Mixture of Experts”의 약자로, 우리말로는 “전문가 혼합” 아키텍처라고 부릅니다.
  • 쉽게 말해: 아주 똑똑한 AI 모델을 만들고 싶은데, 너무 크고 무거워지면 다루기 어렵겠죠? 그래서 모델 내부에 여러 분야의 ‘전문가(Expert)’ 유닛들을 여러 개 만들어 둡니다.
  • 작동 방식:
    • 사용자가 질문이나 명령(텍스트 토큰)을 입력하면, 모델은 이 입력 내용을 처리하기에 가장 적합한 전문가 몇 명만 골라서 활성화시킵니다. 마치 회사에서 특정 문제가 생기면 그 분야 전문가들만 모여 회의하는 것과 비슷해요.
    • 예를 들어 Llama 4 Maverick 모델은 총 128명의 전문가를 가지고 있지만, 특정 단어를 처리할 때는 그중 단 한 명의 전문가와 모두가 공유하는 기본 전문가만 작동합니다. (총 파라미터는 4000억 개지만, 실제 한 번 계산에 쓰는 활성 파라미터는 170억 개)
  • 장점:
    • 효율성: 모델 전체 크기는 크지만, 실제로 계산할 때는 일부 전문가만 사용하므로 계산 속도가 빠르고 에너지 소모가 적습니다. (훈련 및 서비스 운영 비용 절감)
    • 성능: 제한된 계산 자원으로도 더 똑똑한 모델을 만들 수 있습니다.

결론: MoE는 여러 전문가 중 필요한 전문가만 골라 쓰는 방식으로, 모델의 효율성과 성능을 동시에 높이는 기술입니다.


2. iRoPE 아키텍처 (사후 훈련 섹션 – Llama 4 Scout)

  • iRoPE는 Llama 4 Scout 모델이 **아주 긴 글(최대 1,000만 단어!)**을 이해할 수 있도록 특별히 설계된 새로운 기술 구조입니다. ‘i’는 ‘interleaved(교차된)’와 ‘infinite(무한한, 장기 목표)’를 의미하고, ‘RoPE’는 기존 Llama 모델에서도 쓰던 위치 정보 처리 기술(Rotary Position Embeddings)을 뜻합니다.
  • 핵심 아이디어:
    • 긴 글 처리: 우리가 긴 소설을 읽을 때 앞부분 내용을 기억하며 뒷부분을 이해하듯, AI도 아주 긴 문맥을 파악하는 능력이 중요합니다. iRoPE는 이 능력을 극대화하기 위해 만들어졌습니다.
    • 위치 정보 처리 개선 (RoPE 기반): 글에서 단어의 ‘순서’나 ‘위치’ 정보는 매우 중요합니다. RoPE는 단어 간의 상대적인 위치 관계를 효율적으로 파악하는 기술인데, iRoPE는 이를 더 개선하고 변형한 것으로 보입니다. (텍스트에는 구체적인 개선 방식은 명시되지 않았습니다.)
    • 교차된 어텐션 레이어 (Interleaved attention layers): 모델이 글의 중요한 부분에 ‘집중(attention)’하는 방식을 여러 층에 걸쳐 교차 배치하여, 긴 글에서도 정보 손실을 줄이고 핵심 내용을 잘 파악하도록 돕는 구조일 수 있습니다.
    • 추론 시 온도 조절 (Inference time temperature scaling): 모델이 실제로 답변을 생성할 때, 어텐션(집중도) 값의 온도를 미세하게 조절하여 학습한 것보다 훨씬 긴 글에 대해서도 안정적으로 이해하고 반응하도록 돕습니다.
  • 목표: 이 기술 덕분에 Llama 4 Scout는 책 여러 권 분량의 문서를 한 번에 읽고 요약하거나, 아주 긴 코드를 분석하는 등 엄청난 양의 정보를 처리할 수 있게 됩니다.

결론: iRoPE는 긴 글을 효과적으로 이해하기 위해 위치 정보 처리 방식과 어텐션 구조를 개선한 Llama 4 Scout의 핵심 기술입니다.


3. 모델 증류 (Codistillation – Behemoth 섹션)

  • **모델 증류(Distillation)**는 ‘선생님 모델’의 지식을 ‘학생 모델’에게 가르치는 학습 방법입니다. 마치 경험 많은 선생님이 학생에게 노하우를 전수하는 것과 같아요.
    • 선생님 모델 (Teacher): 매우 크고 성능이 뛰어난 모델 (여기서는 Llama 4 Behemoth)
    • 학생 모델 (Student): 더 작고 효율적인 모델 (여기서는 Llama 4 Maverick)
  • 일반적인 증류 방식: 학생 모델은 선생님 모델이 내놓는 최종 정답(hard target)뿐만 아니라, 정답을 찾아가는 과정에서의 생각(어떤 답을 더 유력하게 봤는지 등의 확률 분포, soft target)까지 학습합니다. 이렇게 하면 학생 모델이 더 똑똑해질 수 있습니다.
  • Codistillation (함께 증류): 이 글에서 ‘Codistillation’은 학생 모델(Maverick)을 처음부터 훈련시키는 ‘사전 훈련(Pre-training)’ 단계에서부터 선생님 모델(Behemoth)의 지식을 함께 활용하여 증류하는 방식을 의미하는 것으로 보입니다.
    • 작동 방식:
      1. 학생 모델이 학습할 데이터 대부분에 대해, 미리 선생님 모델(Behemoth)을 돌려서 ‘정답’과 ‘생각 과정(soft target)’ 데이터를 만들어 둡니다.
      2. 학생 모델(Maverick)은 자신의 데이터를 학습하면서, 동시에 선생님이 만들어준 이 고급 정보들을 함께 배우며 훈련합니다. (이때 어떤 정보에 더 가중치를 둘지 조절하는 특별한 손실 함수를 사용합니다.)
      3. 훈련 도중 새로운 데이터가 추가되면, 그 데이터에 대해서만 선생님 모델을 돌려 정보를 얻습니다.
  • 장점: 선생님 모델을 매번 돌리는 것은 비용이 많이 드는데, 사전 훈련 단계에 통합하여 미리 만들어둔 정보를 활용함으로써 효율적으로 선생님의 지식을 전수받을 수 있습니다. 덕분에 학생 모델(Maverick)의 성능이 크게 향상되었습니다.

결론: Codistillation은 크고 똑똑한 선생님 모델(Behemoth)의 지식을 효율적으로 작은 학생 모델(Maverick)에게 사전 훈련 단계부터 전달하여, 학생 모델의 성능을 극대화하는 학습 기법입니다.


4. GOAT (안전 장치 섹션)

  • GOAT는 “Generative Offensive Agent Testing”의 약자로, **”생성형 공격 에이전트 테스트”**를 의미합니다. AI 모델의 안전성을 테스트하는 새로운 자동화 방법입니다.
  • 목적: 기존에는 사람이 직접 AI 모델에게 나쁜 질문을 하거나 속이려는 시도를 하며 약점을 찾는 ‘레드팀(red-teaming)’ 방식을 주로 사용했습니다. 하지만 사람이 모든 경우를 테스트하기는 어렵죠. GOAT는 이 과정을 자동화하여 더 넓은 범위를 더 빠르게 테스트하기 위해 개발되었습니다.
  • 작동 방식:
    • 가상 공격자(Agent): GOAT는 마치 ‘악의적인 사용자’처럼 행동하는 또 다른 AI(에이전트)를 사용합니다.
    • 자동 공격 시뮬레이션: 이 가상 공격자 AI가 테스트 대상 모델(Llama 4)과 여러 차례 대화를 주고받으며, 모델을 속이거나 유해한 답변을 유도하는 등의 공격 상황을 자동으로 시뮬레이션합니다.
    • 중간 수준 공격 모방: 아주 고도의 해킹 기술보다는, 일반 사용자들이 시도할 수 있는 다양한 종류의 악용 사례나 공격 패턴을 주로 테스트하는 것으로 보입니다.
  • 효과:
    • 효율성 및 속도 향상: 자동화를 통해 알려진 유형의 위험들을 빠르고 광범위하게 테스트할 수 있습니다.
    • 인간 전문가는 더 어려운 문제에 집중: 자동 테스트가 기본적인 부분을 담당해주므로, 인간 레드팀 전문가들은 더 새롭고 예측하기 어려운 공격 방식을 찾는 데 집중할 수 있습니다.
    • 더 나은 위험 분석: 모델의 잠재적 위험을 더 체계적이고 정량적으로 파악하는 데 도움이 됩니다.

결론: GOAT는 AI가 AI를 공격하는 상황을 시뮬레이션하여 모델의 안전 취약점을 자동으로, 더 빠르고 넓게 찾아내는 테스트 기법입니다.


5. Llama 4 vs Llama 3 편향성 개선 (편향성 해결 섹션)

  • 문제점: 많은 AI 모델들이 인터넷 데이터를 학습하다 보니, 특정 정치적/사회적 이슈에 대해 한쪽으로 치우친 시각을 갖거나 특정 질문에 답변을 거부하는 ‘편향성’ 문제를 보입니다.
  • Meta의 목표: Llama 모델이 특정 입장에 치우치지 않고, 논쟁적인 주제에 대해서도 다양한 관점을 이해하고 공정하게 설명하며, 부당하게 답변을 거부하지 않도록 만드는 것입니다.
  • Llama 4의 개선 사항 (Llama 3.3 대비):
    • 답변 거부 대폭 감소: 논쟁적인 정치/사회 주제에 대해 “답변할 수 없습니다”라고 말하는 비율이 Llama 3.3에서는 7%였는데, Llama 4는 2% 미만으로 크게 줄었습니다. 즉, 더 많은 질문에 답변하려고 노력합니다.
    • ‘한쪽 편만 드는’ 거부 감소: 특정 입장(예: 진보적 질문에는 답하고 보수적 질문은 거부)에 따라 답변을 거부하는 ‘불균형한 거부’가 거의 사라졌습니다. (논쟁적 주제 세트에서 1% 미만)
    • 강한 정치색 감소: 답변에서 강한 정치적 편향을 드러내는 경우가 Llama 3.3의 절반 수준으로 줄었습니다. 이는 다른 모델인 Grok과 비슷한 수준이라고 합니다. 즉, 좀 더 중립적인 답변을 하려고 노력합니다.
  • 아직 진행 중: Meta는 이러한 개선에도 불구하고 아직 할 일이 더 남아 있으며, 편향성을 더욱 줄이기 위해 계속 노력할 것이라고 밝혔습니다.

결론: Llama 4는 이전 모델(Llama 3.3)에 비해 논쟁적인 주제에 대해 더 개방적으로 답변하고, 특정 정치/사회적 입장에 치우치는 경향이 크게 줄어드는 등 편향성 문제에서 상당한 개선을 이루었습니다.

About the Author
(주)뉴테크프라임 대표 김현남입니다. 저에 대해 좀 더 알기를 원하시는 분은 아래 링크를 참조하세요. http://www.umlcert.com/kimhn/

Leave a Reply

*