GR00T N1 + N1.5: NVIDIA 범용 휴머노이드 로봇 파운데이션 모델 완전 분석
TL;DR
GR00T N1(arXiv:2503.14734)은 NVIDIA가 2025년 3월 GTC에서 발표한 세계 최초 오픈소스 범용 휴머노이드 로봇 파운데이션 모델입니다. 인간의 인지 구조(System 1/2 이론)에서 영감을 받은 듀얼 시스템 아키텍처: System 2(Eagle-2 VLM, 1.34B 파라미터)가 비전·언어로 환경을 이해하고, System 1(Diffusion Transformer, Flow Matching)이 120Hz 연속 모터 명령을 생성. 데이터 피라미드 전략으로 인터넷 비디오·합성 데이터·실제 로봇 데이터를 계층적으로 학습. Fourier GR-1 휴머노이드 실제 로봇에서 76.8% 성공률 달성. GR00T-N1-2B 모델 체크포인트 오픈소스 공개.
후속: GR00T N1.5 (2025년 5월) — FLARE 손실함수·Eagle 2.5 VLM 업그레이드로 언어 추종률 46.6% → 93.3%로 대폭 향상. GR00T-N1.5-3B 오픈소스 공개.
Background: 왜 휴머노이드 로봇이 어려운가
최근 보스턴다이나믹스, Figure AI, 1X, Fourier 등 수많은 회사가 휴머노이드 로봇을 만들고 있지만, 범용적으로 작동하는 두뇌(정책 모델)는 여전히 부재했습니다.
왜 어려운가:
형태 다양성 (Embodiment Gap): 제조사마다 팔 길이, 관절 수, 센서 구성이 전부 달라 하나의 정책이 모든 플랫폼에서 동작하지 않음.
고주파 정밀 제어: 인간 수준의 조작은 100Hz 이상의 연속 관절 명령 필요 — 이산 토큰(GPT 방식)으로는 불가능.
데이터 부족: 특정 휴머노이드 플랫폼의 실제 데이터는 극히 적음. 인터넷 스케일로 학습한 뒤 소량 데이터로 적응(파인튜닝)해야 함.
멀티모달 이해 + 실시간 행동 동시 필요: 시각·언어 이해(느림)와 물리 제어(빠름)를 하나의 모델로 통합해야 함.
| 기존 접근 | 한계 |
| ACT, Diffusion Policy | 특정 로봇 1대에 특화 |
| RT-1, RT-2 | Google 클로즈드 소스, 확장성 제한 |
| π0 (Physical Intelligence) | 클로즈드 소스 |
| OpenVLA | VLA이지만 휴머노이드 최적화 부재 |
GR00T N1: 오픈소스 + 멀티 임바디먼트 + 범용 파운데이션 모델.
Core Architecture: 듀얼 시스템 설계
Fig.3. GR00T N1 듀얼 시스템 아키텍처 — System 2(VLM) → System 1(Diffusion Transformer)
GR00T N1은 대니얼 카너먼의 "빠른 사고(System 1) / 느린 사고(System 2)" 프레임워크에서 영감받은 구조입니다.
System 2: Vision-Language Module (추론 모듈)
역할: "지금 상황이 뭔지, 무엇을 해야 하는지" 이해
입력:
- RGB 이미지 (224×224, 카메라 2~4개)
- 언어 지시 ("Put the apple in the bowl")
처리:
- NVIDIA Eagle-2 VLM 백본 (SmolLM-1.7B 기반)
- 이미지 1장 → 64개 토큰으로 압축
- Vision encoder + Language model 결합
출력:
- 고수준 컨텍스트 토큰 (1.34B 파라미터)
- System 1에게 cross-attention으로 전달
하드웨어: NVIDIA L40 GPU
주파수: 10Hz (느린 사고)
System 1: Diffusion Transformer (행동 모듈)
역할: "어떻게 움직일지" 실시간 생성
입력:
- System 2 출력 토큰 (cross-attention)
- 현재 로봇 상태 (관절 위치, 속도)
- 임바디먼트별 인코더 출력
처리:
- Diffusion Transformer with Flow Matching
- 4 inference steps (학습 중 ~1000 → 추론 4 스텝)
- k=16 액션 청크 생성 (ACT의 아이디어 계승)
출력:
- 연속 관절 명령 (k×DOF 차원)
- Temporal Ensemble으로 부드럽게 실행
하드웨어: Jetson AGX Orin (온보드 추론 가능)
주파수: 120Hz (빠른 사고)
임바디먼트별 인코더/디코더
서로 다른 로봇 플랫폼을 하나의 모델로 처리하기 위한 핵심:
[입력 단계]
각 로봇의 상태 벡터 (고유 DOF, 센서 구성)
→ 임바디먼트별 Linear Encoder → d_model 공통 공간
[출력 단계]
공통 액션 표현
→ 임바디먼트별 Linear Decoder → 각 로봇의 관절 명령
학습 시: 8개 임바디먼트 데이터가 동일 Transformer 가중치를 공유 → 크로스 임바디먼트 전이 학습 가능.
전체 텐서 흐름 (행렬 크기 포함)
━━━ System 2 Forward Pass (10Hz) ━━━
카메라 이미지 (N_cam, 3, 224, 224) # N_cam = 2~4
└─ SigLIP-2 Vision Encoder
→ (N_cam, 64, d_vlm) # 이미지당 64 토큰, d_vlm ≈ 2048
└─ flatten
→ (N_cam × 64, d_vlm) # = (128~256, 2048)
언어 지시 토큰 (L, d_vlm) # 토크나이징된 instruction
VLM — Eagle-2 (SmolLM2-1.7B 기반):
concat([visual_tokens, lang_tokens]) # (N_cam×64 + L, 2048)
→ 12번째 레이어 hidden state
→ context_tokens (N_ctx, 2048) # System 1에 전달
━━━ System 1 Forward Pass (120Hz) ━━━
로봇 상태 (DOF,) # 예: Fourier GR-1 ≈ 23 DOF
└─ 임바디먼트별 Encoder (Linear)
→ state_token (1, d_model) # d_model ≈ 1024
노이즈 액션 (k, DOF) + 타임스텝 τ # k=16, Flow Matching 노이즈
└─ Linear Embedding
→ action_tokens (k, d_model) # (16, 1024)
Diffusion Transformer:
concat([state_token, action_tokens]) # (1+k, d_model) = (17, 1024)
└─ Self-Attention # (17, 1024) → (17, 1024)
└─ Cross-Attention ← context_tokens # (17, 1024) × (N_ctx, 2048)
→ (17, 1024)
액션 헤드 (Linear):
(k, d_model) → (k, DOF) # (16, 1024) → (16, 23)
→ K=4회 denoising → 클린 â_{t:t+k} # Flow Matching 역산
임바디먼트별 Decoder (Linear):
(k, DOF) → 관절 명령 (k, DOF) # 플랫폼별 스케일/오프셋 매핑
Temporal Ensemble:
청크 중첩 → exp weighted avg # w_i ∝ exp(-m·i)
→ 120Hz 실행
데이터 피라미드: 스케일 vs 특이성
Fig.1. GR00T N1 데이터 피라미드 — 아래로 갈수록 양 많음, 위로 갈수록 임바디먼트 특화
GR00T N1의 핵심 학습 전략: 다양성 있는 데이터를 계층적으로 쌓기.
[피라미드 꼭대기] 실제 로봇 데이터 (少 + 高특화)
- GR00T N1 Humanoid Collection (자체 수집)
- Open X-Embodiment
- AgiBot-Alpha
→ 특정 임바디먼트 행동 학습
[중간층] 합성 데이터 (中 + 中특화)
- DexMimicGen: 88시간 원격조작 → 780,000개 궤적 생성 (11시간 만에)
- Neural Video Generation: 88시간 → 827시간 영상 (10× 증강)
- Isaac Sim 시뮬레이션 환경
→ 합성 추가 시 성능 +40% 향상
[피라미드 밑면] 인터넷 스케일 비디오 (多 + 低특화)
- Ego4D, Ego-Exo4D
- EPIC-KITCHENS
- Assembly-101
- 기타 인간 행동 영상 데이터
→ 범용 시각·운동 사전 지식 습득
라텐트 액션 코드북 (Latent Action Codebook)
문제: 인터넷 비디오에는 액션 레이블이 없음. 로봇 관절 값을 알 방법이 없습니다.
해결책: VQ-VAE 기반 라텐트 액션 코드북
[비디오에서 액션 추출]
비디오 프레임 쌍 (t, t+1)
→ Inverse Dynamics Model
→ 라텐트 액션 코드 (이산 토큰)
학습 중:
VQ-VAE로 액션 공간을 이산 코드북으로 학습
→ 실제 로봇 데이터로 코드북 의미 정렬
→ 비디오-액션 대응 학습 가능
결과: 액션 레이블 없는 대규모 비디오 데이터로 사전 지식 습득 → 실제 로봇 데이터로 파인튜닝 시 빠른 적응.
실험 결과
시뮬레이션 벤치마크
3개 시뮬레이션 벤치마크에서 Diffusion Policy 대비:
| 벤치마크 | GR00T N1 | Diffusion Policy | 개선 |
| RoboCasa Kitchen | 32.1% | 25.6% | +25% |
| DexMimicGen Cross-Emb. | 66.5% | 56.1% | +19% |
| GR-1 Tabletop | 50.0% | 32.7% | +53% |
모든 벤치마크: 태스크당 100개 데모.
실제 로봇 (Fourier GR-1 휴머노이드)
8개 태스크 카테고리, 두 데이터 체제:
| 데이터 체제 | GR00T N1 | Diffusion Policy (전체 데이터) |
| 전체 데이터 (100%) | 76.8% | 46.4% |
| 10% 데이터 | 42.6% | 46.4% |
10% 데이터만으로도 전체 데이터 Diffusion Policy 수준 — 파운데이션 모델의 사전 지식 효과.
크로스 임바디먼트 (사전 훈련만으로)
파인튜닝 없이 사전 훈련 체크포인트만으로:
| 태스크 | 성공률 |
| 양손 Handover | 76.6% |
| 새 컨테이너 배치 | 73.3% |
파인튜닝 없이 새 태스크·새 물체에 일반화.
합성 데이터 효과
실제 데이터만: 베이스라인
실제 + 합성 데이터: +40% 성능 향상
합성 생성 시간: 750,000+ 궤적을 11시간 만에 생성
(= 약 9개월치 인간 시연 데이터)
Key Experiments
10% 데이터 체제 실험 — 파운데이션 모델의 진가
가장 의미 있는 실험:
Diffusion Policy (전체 데이터): 46.4%
GR00T N1 (10% 데이터): 42.6%
GR00T N1 (전체 데이터): 76.8%
10% 데이터의 GR00T N1이 100% 데이터의 Diffusion Policy와 맞먹음. 파운데이션 모델의 사전 지식이 데이터 효율을 극적으로 높임 — 새로운 환경에서 데이터 수집 비용 10배 절감 가능.
합성 데이터 스케일링 법칙
DexMimicGen 합성 데이터를 증가시키면 성능이 로그-선형 증가:
실제 데이터 88시간 → GR-1 50%
+ 합성 데이터 780,000궤적 → 성능 +40% 향상
→ 데이터 부족 문제를 합성 데이터로 해결 가능 — 고비용 실제 로봇 수집을 줄이는 현실적 경로.
System 2 vs System 1 역할 분리
ablation 실험: System 2 없이 System 1만 사용 → 성능 대폭 하락.
VLM의 언어·비전 이해가 Diffusion Transformer에게 핵심 컨텍스트를 제공하기 때문 — 단순 Diffusion Policy 대비 언어 조건부 일반화 가능.
Limitations — 현장 엔지니어 관점
알고리즘/시스템 한계:
단기 조작 태스크 중심: 논문 자체가 "short-horizon tabletop manipulation tasks"에 집중한다고 명시. 장거리 이동+조작(loco-manipulation) 같은 장기 태스크는 미지원.
합성 데이터 물리 정확도: 다양한 반사실적(counterfactual) 데이터 생성 시 물리 법칙 위반 가능성. 현실 gap이 여전히 존재.
강한 VLM 백본 필요: 공간 추론 개선을 위해 더 큰 VLM이 필요하다고 저자들이 직접 언급.
System 2가 10Hz: 빠르게 변하는 동적 환경(예: 사람이 갑자기 움직임)에서 VLM 응답이 느림. System 1이 버퍼링하지만 한계 있음.
현장 엔지니어 관점:
Jetson AGX Orin 추론 가능: System 1은 온보드 가능. System 2 (L40)는 엣지에서 무거움 → 실제 배포 시 System 2를 클라우드로 올리고 System 1만 온보드 구성이 현실적.
파인튜닝 최소 사양: RTX A6000 또는 RTX 4090. 일반 연구실 수준에서 가능 — 오픈소스의 실질적 의미가 있음.
Unitree H1 호환성: 공식 지원은 Fourier GR-1, 1X이지만, 임바디먼트별 인코더/디코더 구조 덕분에 새 플랫폼 추가 시 해당 레이어만 교체하면 됨. H1, G1에 붙이는 것 기술적으로 가능.
데이터 피라미드 실전 적용: 새 태스크 추가 시 "실제 50~100개 시연 → DexMimicGen으로 5,000개 합성 → 파인튜닝"이 현재 가장 현실적인 파이프라인.
N1.5, N1.7 후속 버전: 공개 이후 빠르게 N1.5(3B), N1.7이 나왔음. 실제 배포 프로젝트라면 최신 버전 체크 필요.
The Lineage — GR00T N1의 계보
| 시스템/논문 | 관계 |
| RT-1 (Google, 2022) | 대규모 데이터 + Transformer → 로봇 정책 패러다임 |
| RT-2 (Google, 2023) | VLM을 액션 예측에 직접 활용 (언어→로봇) |
| ACT (Zhao et al. 2023) | Action Chunking + CVAE — 조작 정밀도 기준 확립 |
| Diffusion Policy (Chi et al. 2023) | 확산 모델로 멀티모달 행동 분포 학습 |
| π0 (Physical Intelligence, 2024) | Flow Matching + 멀티 임바디먼트 VLA — GR00T N1과 구조 유사 |
| OpenVLA (Kim et al. 2024) | 7B 오픈소스 VLA — 오픈소스 기반 확립 |
| GR00T N1 (NVIDIA, 2025) | **오픈 파운데이션 + 듀얼 시스템 + 데이터 피라미드 — 휴머노이드 표준 |
| GR00T N1.5 / N1.7 | 후속 버전, 3B 파라미터, 더 많은 임바디먼트 |
| Isaac GR00T Blueprint | GR00T N1 학습 파이프라인 오픈소스 툴킷 |
NVIDIA가 만든 공식: 오픈 파운데이션 모델 + 합성 데이터 스케일링 + 듀얼 시스템 = 범용 휴머노이드 두뇌. 이 생태계를 주도하면서 하드웨어(AGX Orin, H100)와 소프트웨어(Isaac Sim, GR00T) 모두를 장악하려는 포석.
Summary — Key Takeaways
듀얼 시스템이 핵심 설계 결정 — System 2(VLM 10Hz)가 "무엇을 해야 하는지" 이해하고, System 1(Diffusion Transformer 120Hz)이 "어떻게 움직일지" 실시간 생성. 느린 추론과 빠른 제어를 분리해 둘 다 잘 함.
데이터 피라미드 + 합성 데이터가 데이터 효율 문제를 해결 — 실제 88시간 시연 → 합성 780,000 궤적(11시간), 성능 +40%. 고비용 실제 수집 없이도 스케일 가능.
파운데이션 모델의 실질적 가치: 10% 데이터로 베이스라인 풀데이터 수준 달성 — 새 환경 배포 시 데이터 수집 비용 10배 절감. 이게 파운데이션 모델을 쓰는 이유.
오픈소스 + 멀티 임바디먼트 — GR00T-N1-2B 체크포인트 공개, 임바디먼트별 인코더/디코더로 새 플랫폼 추가 용이. RT-2, π0가 클로즈드인 것과 대조됨.
단기 조작에 강하고 장기 이동+조작에는 미완성 — 현 버전은 테이블탑 조작 전문. 장거리 이동하면서 조작하는 full loco-manipulation은 GR00T N2, N3의 과제. 하드웨어·데이터·아키텍처 3박자 모두 더 필요.
GR00T N1.5: 무엇이 달라졌나
N1 발표 약 2개월 후인 2025년 5월, NVIDIA는 GR00T N1.5를 공개했습니다. 아키텍처 기반은 동일하지만 세 가지 핵심 개선이 이뤄졌습니다.
1. FLARE 손실함수 (Future LAtent Representation Alignment)
N1의 System 2는 미래 프레임을 생성(generative)하는 방식으로 학습했습니다. N1.5는 이를 FLARE로 대체:
[N1] 미래 프레임 픽셀 예측 (generative frame prediction)
[N1.5] 미래 latent 표현 정렬 (FLARE):
현재 관측 임베딩 → 미래 VLM 임베딩과 정렬 (contrastive)
→ 픽셀 재구성 없이 의미론적 미래 상태 학습
효과:
- 정책 성능 향상 (픽셀보다 고수준 표현이 제어에 더 유용)
- 인간 에고 비디오 학습 가능: 액션 레이블 없는 1인칭 비디오에서 직접 학습 가능
2. Eagle 2.5 VLM 업그레이드 + VLM 동결
N1.5는 더 강한 Eagle 2.5 VLM을 사용하고, 사전 훈련·파인튜닝 모두 VLM을 동결(frozen):
[N1] VLM 전체 학습 (end-to-end)
[N1.5] VLM 동결 + 간소화된 Adapter MLP
- Layer Normalization을 시각/텍스트 토큰 임베딩 모두에 적용
- VLM 출력 → Adapter MLP → Diffusion Transformer
- 더 안정적 학습, 더 나은 사전 지식 보존
3. GR00T-Dreams: 36시간으로 3개월치 데이터 생성
N1.5에는 GR00T-Dreams Blueprint를 활용한 대규모 합성 데이터가 포함됩니다:
GR00T-Dreams 파이프라인:
1. 소량 실제 시연 → DreamGen으로 다양한 신경 궤적 합성
2. Isaac Sim에서 물리 시뮬레이션 검증
3. 합성된 12개 새 액션 동사(verb) 데이터
결과:
- 기존 3개월 수동 데이터 수집 → 36시간으로 대체
- 1,000개 H100 GPU, 250K steps 학습
GR00T N1 vs N1.5 성능 비교
| 태스크 | N1 | N1.5 | 향상 |
| Language Table (시뮬) | 52.8% | 93.2% | +76% |
| 실제 GR-1 언어 추종 | 46.6% | 93.3% | +100% |
| RoboCasa (30 데모) | 17.4% | 47.5% | +173% |
| Unitree G1 (1K 데모) | 44.0% | 98.8% | +125% |
| DreamGen 12 태스크 | 13.1% | 38.3% | +193% |
언어 추종 거의 2배: N1의 46.6% → N1.5의 93.3%. 언어 지시를 이해하고 따르는 능력이 가장 크게 향상됐고, 이는 VLM 업그레이드 + FLARE의 복합 효과.
Unitree G1 98.8%: N1 공식 지원 밖이었던 플랫폼에서 파인튜닝 후 거의 완벽한 성공률 — 크로스 임바디먼트 확장성 입증.
📚 논문: arXiv:2503.14734
🤖 모델: HuggingFace GR00T-N1-2B
🐙 코드: GitHub: NVIDIA/Isaac-GR00T
🤖 N1.5 모델: HuggingFace GR00T-N1.5-3B
📖 N1.5 리서치 페이지: GR00T N1.5 — NVIDIA Research
📖 기술 블로그: NVIDIA Developer Blog
다음 포스트: Swerve Drive — 전방향 이동 플랫폼 역기구학