DruckFin

SemiAnalysis: 강화학습 훈련 효율성, 컴퓨팅 규모보다 처리량(Throughput) 정합이 핵심

오픈소스 강화학습 프레임워크 실험을 통해 본 모델 역량 확장의 결정적 병목 현상 - 2026년 6월 16일

강화학습(RL) 기반의 포스트 트레이닝(post-training)은 최상위 AI 모델의 성능을 결정짓는 핵심 비결로 자리 잡았으나, 이를 확장하는 데는 막대한 비용이 소요된다. SemiAnalysis는 오픈소스 강화학습 프레임워크에 대한 광범위한 실험을 통해 강화학습 훈련의 시스템 효율성을 좌우하는 진정한 요인을 분석했다. 그 결과는 놀랍게도 단순히 더 많은 컴퓨팅 자원을 투입하는 것이 아니라, 훈련 데이터를 생성하는 '제너레이터(generator)'와 이를 학습하는 '트레이너(trainer)' 간의 처리량(throughput)을 정밀하게 맞추는 것이 핵심이라는 점이다.

연구팀은 Qwen3-235B, GLM-5 등의 모델을 Prime RL, slime, verl 등 다양한 강화학습 프레임워크에서 실험했으며, 이를 통해 강화학습 인프라 설계에 대한 기존의 통념을 뒤흔드는 결과를 도출했다.

아무도 말하지 않는 '큐(Queue) 상태' 문제

SemiAnalysis는 강화학습 훈련의 효율성을 '제너레이터가 롤아웃(rollout)을 생성하고 트레이너가 이를 소비하는 큐'라는 모델로 설명한다. 제너레이터가 느리면 트레이너는 데이터 부족으로 유휴 상태가 되고, 제너레이터가 너무 빠르면 큐에 쌓인 샘플이 노후화되는 '정책 노후화(policy staleness)' 현상이 발생한다. 이는 모델이 이전 버전의 자신에 의해 생성된 출력값으로 학습하게 되어 학습 품질을 저하시키는 결과를 초래한다.

Qwen3-235B-Thinking 모델을 대상으로 한 64개의 H200 GPU(트레이닝용)와 192개의 GPU(생성용) 실험에서, 시스템은 심각한 '생성 병목(generation-bound)' 현상을 겪었다. 트레이너는 초당 2.75개의 샘플을 소비했으나 전체 시간의 30%를 대기하며 모델 FLOPs 활용률은 10.5%에 그쳤다. 제너레이터는 트레이너의 3배에 달하는 컴퓨팅 자원을 사용하고도 초당 1.95개의 샘플을 생성하는 데 그쳤다. 주된 원인은 모델이 추론 과정을 포함한 매우 긴 응답을 생성하면서 발생한 응답 길이의 편차로 인한 심각한 꼬리 지연(tail latency) 문제였다.

이를 해결하기 위해 연구팀은 '오버샘플링(oversampling)' 기법을 도입해 생성된 롤아웃의 60%를 폐기해야 했다. 이는 필요한 것보다 더 많은 롤아웃을 동시에 실행하고 미완성된 것을 버리는 비효율적인 방식이며, 강화학습 훈련 시 추론 효율성이 얼마나 중요한지를 단적으로 보여준다. 이는 현재 강화학습 인프라 논의에서 간과되고 있는 지점이다.

모델 행동 변화가 만드는 '움직이는 표적'

128개의 H200 GPU를 사용한 GLM-5 실험에서는 강화학습 시스템 설계의 난제를 보여주는 또 다른 차원이 드러났다. 훈련 과정에서 모델의 행동이 변화하며 시스템 제약 조건이 계속 바뀐다는 점이다. 훈련이 진행됨에 따라 턴당 평균 응답 길이와 도구 호출(tool call) 횟수가 20회에서 51회로 3배 증가했다. 이는 시퀀스 길이를 늘리고 워크로드를 '프리필(prefill)' 중심의 프로필로 이동시켜, 훈련 중간에 최적의 인프라 구성을 완전히 바꿔버렸다.

설상가상으로 커리큘럼은 모델에게 너무 쉬웠다. 문제의 55%는 모든 롤아웃이 통과하는 100% 성공률을 보였다. 모든 롤아웃이 동일한 보상을 받으면 어드밴티지(advantage) 계산 결과는 0이 되어 학습 신호가 생성되지 않는다. SemiAnalysis의 설명처럼 "성공률이 100% 혹은 0%에 가까울 때" 즉, 과제가 너무 쉽거나 너무 어려울 때 발생하는 현상이다. 결과적으로 컴퓨팅 자원 투입에도 불구하고 평균 보상은 제자리걸음을 했다.

이러한 복합적인 영향으로 시스템은 극심한 생성 병목 상태에 빠졌고, 트레이너는 전체 시간의 74%를 대기하며 소비 속도는 제너레이터 생산 속도의 5배에 달했다. 학습 신호를 제공하지 못하는 샘플들이 필터링되면서 실질적인 제너레이터 생산 속도는 붕괴했다.

샌드박스 확장성의 한계

GB300 하드웨어에서 진행된 세 번째 실험에서는 동시 롤아웃을 96개에서 960개로 늘리자 인프라의 거대한 벽에 부딪혔다. 바로 '샌드박스 확장성'이다. 각 롤아웃은 코드 실행과 보상 제공을 위해 최소 하나의 컨테이너화된 샌드박스가 필요한데, 960개 동시 실행 시 "샌드박스 초기화 오류 및 1시간에 달하는 샌드박스 실행 지연"이 발생했다. 결국 96개로 다시 규모를 줄였으나, 이번에는 낮은 롤아웃 효율성이 관찰되었다.

이는 현재 6개 주요 기업이 연간 300억 달러 이상의 매출을 올리고 연말까지 1,000억 달러를 넘어설 것으로 예상되는 코딩 보조 도구 강화학습 훈련의 근본적 제약을 보여준다. 샌드박스 인프라는 동시 롤아웃 수에 맞춰 선형적으로 확장되어야 하며, Modal과 같은 샌드박스 서비스 업체들은 초기 실행 지연(startup latency), 변동성 있는 수요, 메모리를 고갈시키는 수백만 개의 파일 생성과 같은 예상치 못한 모델 행동에 대한 강건성 등 독특한 과제에 직면해 있다.

정책 노후화: 비동기 훈련의 숨겨진 비용

고전적인 정책 경사(policy gradient) 알고리즘은 그룹 내 모든 롤아웃이 동일한 모델 가중치에서 생성된다고 가정한다. 이는 제너레이터가 현재 배치를 마칠 때까지 가중치를 업데이트할 수 없는 동기식 실행을 강제하여 엄청난 비효율을 낳는다. 업계는 롤아웃 생성 중에도 가중치 업데이트를 허용하는 파이프라인RL(PipelineRL)과 같은 비동기 기법으로 전환했다.

그러나 이는 샘플이 구버전과 신버전 정책의 혼합으로 생성되는 '정책 노후화'를 야기한다. SemiAnalysis는 이를 궤적 수준, 토큰 수준, 환경 상태 수준의 세 가지 노후화 단계로 구분한다. 특히 slime 프레임워크의 '부분 롤아웃(partial rollout)' 기능은 꼬리 지연을 완화하지만, 환경 상태 수준의 노후화라는 치명적인 문제를 야기한다. "샌드박스가 재개될 때 이전 정책이 생성한 편집 내용, 파일, 작업 디렉토리 상태가 그대로 남아 있어, 새로운 정책이 자신이 생성하지 않은 상황에서 작업을 이어가야 한다." 이는 어드밴티지 귀속 과정에서 학습 신호를 오염시킨다.

경제성이 보여주는 가혹한 현실

SemiAnalysis는 실험 결과를 관리형 강화학습 훈련 플랫폼인 Thinking Machines Lab의 'Tinker'와 비교하여 총소유비용(TCO)을 분석했다. H200 인프라의 경우 GPU당 시간당 비용은 1.59달러이며, 자본 비용이 72.5%를 차지했다. 서버 비용은 서버당 25만 8,000달러로 전체 초기 자본 지출(capex) 36만 1,000달러의 71%를 차지하는 지배적인 요소였다.

Qwen3-235B 실험에서 slime을 사용했을 때 토큰 100만 개당 비용은 16.23달러로, Tinker의 발표치인 4.86달러보다 4.86배 높았다. Prime RL의 경우 6.90달러로 격차는 2.01배로 줄었다. 프레임워크 간의 이러한 비용 차이는 추론 효율성이 총비용을 얼마나 결정짓는지를 극명하게 보여준다.

SemiAnalysis는 Tinker가 다중 테넌시(multi-tenancy)를 통해 비용 우위를 점하고 있다고 추정한다. Tinker는 여러 사용자가 대부분의 가중치를 공유하며 모델을 훈련하는 LoRA(Low-Rank Adaptation) 훈련 API를 제공한다. "트레이너 측면에서 Tinker는 여러 사용자의 훈련 요청을 배치 처리하여 효율성을 극대화하며, 생성 측면에서는 특정 런이 지연될 때 다른 테넌트의 롤아웃으로 유휴 슬롯을 채워 꼬리 지연 효과를 완화한다."

연구팀은 Thinking Machines Lab이 프리필-디코드 분리(prefill-decode disaggregation)와 같은 추론 최적화를 적용하고 있으며, Hopper 대비 추론 성능이 뛰어난 Blackwell GPU를 사용하고 있을 가능성이 높다고 분석했다. 이러한 다중 테넌시 이점과 하드웨어 개선이 결합하여 극적인 비용 격차를 만들어낸다는 것이다.

강화학습 확장에 사활을 건 Anthropic

이 보고서는 왜 이 문제가 중요한지에 대한 맥락을 제공한다. Dario Amodei Anthropic CEO는 강화학습을 두고 "훈련 기간에 따라 성능이 로그 선형적으로 증가하는, 사전 훈련이 과거에 보여주었던 것과 같은 확장성을 보여준다"고 평가했다. 하지만 그 확장에는 막대한 비용이 들기 때문에, 강화학습 시스템의 효율성은 모델 역량을 어디까지 끌어올릴 수 있는지를 결정하는 핵심 변수가 된다.

구체적으로 Claude Opus 4.8은 SWE-bench Pro에서 69.2%, Terminal-Bench 2.1에서 74.6%를 기록했으며, 강화학습 훈련이 "점수를 높이는 데 결정적인 역할을 했다"고 평가받는다. 이러한 에이전트형 코딩 역량은 사전 훈련만으로는 나오지 않으며, 강화학습을 통한 광범위하고 값비싼 포스트 트레이닝이 필수적이다.

오픈소스 커뮤니티의 발전도 눈부시다. SemiAnalysis는 DeepSeek R1 출시 이후 OpenRLHF에서 slime, verl로 이어지는 흐름을 짚어냈다. OpenRLHF 기여자들은 이러한 프레임워크를 개발하며 강화학습 훈련 분야의 활기찬 중국 커뮤니티를 형성했고, 이는 "최근 중국 모델의 발전에 긍정적으로 기여했다"고 평가했다. 또한 이러한 프레임워크는 학계 연구자들이 새로운 알고리즘을 개발할 수 있는 토대가 되었다.

프레임워크 사용자 경험의 중요성

연구팀은 테스트한 프레임워크에 대해 솔직한 평가를 내렸다. Prime RL은 uv를 통한 설정과 toml 파일 구성, AI 에이전트 통합을 위한 스킬 파일 등 뛰어난 사용자 편의성으로 호평받았다. 특히 강화학습 환경 허브와 프리필-디코드 분리 지원은 강점이다. 그러나 uv에 대한 과도한 의존으로 인해 "Flash Attention 3가 왜 삭제되는지 알 수 없어 재설치에 상당한 시간을 허비하는" 등의 마찰을 겪었다.

베타 버전인 Prime Sandbox는 훈련 후반부에 많은 실패를 유발했다. "샌드박스 할당량을 소진하는 좀비 샌드박스, 리소스 부족, 크레딧 부족 등 실행 전 감지 가능한 오류들이 많았다."

Slime은 "깔끔하고 최소화된 추상화"와 맞춤 설정이 용이한 훅(hook) 구조로 높은 점수를 받았다. 개발팀의 대응도 매우 빨랐다. 다만, 로컬 모드에 집중한 나머지 비동기 모드에 대한 문서화가 부족하여 "대부분 시행착오를 통해" 메커니즘을 파악해야 했다는 점이 아쉬움으로 남았다.

Modal의 샌드박스 API는 문서화 품질과 소규모 서비스의 강건성 면에서 호평받았다. 하지만 높은 동시성 환경에서는 초기화 오류와 긴 꼬리 지연 문제가 발생했다. 이는 플랫폼의 한계라기보다 계정의 리소스 제한 문제였으며, 한도를 상향하자 안정성이 확인되었다. 그럼에도 이 경험은 샌드박스 관측 도구와 확장성 문서화가 더 개선되어야 함을 시사한다.

오픈소스 도구의 거친 면모에 대한 이러한 가감 없는 평가는 일반적인 벤더 마케팅과는 대조적이지만, 강화학습 훈련 인프라에 자본을 투입하기 전 실제 구현상의 난제를 이해해야 하는 기관 투자자들에게는 실질적인 가치를 제공한다.

면책 조항: 본 기사는 정보 제공의 목적으로만 작성되었으며, 투자 조언이나 유가증권의 매수, 매도, 보유를 권장하는 내용이 아닙니다. 당사의 애널리스트는 기업 이벤트에 대해 자세한 내용을 다루지만 실수가 있을 수 있으므로 항상 본인의 판단 하에 실사(Due Diligence)를 수행하시기 바랍니다. 표현된 견해와 의견은 DruckFin의 입장과 반드시 일치하는 것은 아닙니다. 본문에 사용된 모든 정보를 독립적으로 검증하지 않았으며, 오류나 누락이 포함될 수 있습니다. 투자 결정을 내리기 전에 자격을 갖춘 재무 고문과 상담하십시오. DruckFin 및 그 계열사는 본 콘텐츠를 신뢰하여 발생하는 어떠한 손실에 대해서도 책임을 지지 않습니다. 전체 약관은 당사의 이용약관을 참조하십시오.