GR00T N1 + N1.5: NVIDIA 범용 휴머노이드 로봇 파운데이션 모델 완전 분석

TL;DR

GR00T N1(arXiv:2503.14734)은 NVIDIA가 2025년 3월 GTC에서 발표한 세계 최초 오픈소스 범용 휴머노이드 로봇 파운데이션 모델입니다. 인간의 인지 구조(System 1/2 이론)에서 영감을 받은 듀얼 시스템 아키텍처: System 2(Eagle-2 VLM, 1.34B 파라미터)가 비전·언어로 환경을 이해하고, System 1(Diffusion Transformer, Flow Matching)이 120Hz 연속 모터 명령을 생성. 데이터 피라미드 전략으로 인터넷 비디오·합성 데이터·실제 로봇 데이터를 계층적으로 학습. Fourier GR-1 휴머노이드 실제 로봇에서 76.8% 성공률 달성. GR00T-N1-2B 모델 체크포인트 오픈소스 공개.

후속: GR00T N1.5 (2025년 5월) — FLARE 손실함수·Eagle 2.5 VLM 업그레이드로 언어 추종률 46.6% → 93.3%로 대폭 향상. GR00T-N1.5-3B 오픈소스 공개.

Background: 왜 휴머노이드 로봇이 어려운가

최근 보스턴다이나믹스, Figure AI, 1X, Fourier 등 수많은 회사가 휴머노이드 로봇을 만들고 있지만, 범용적으로 작동하는 두뇌(정책 모델)는 여전히 부재했습니다.

왜 어려운가:

형태 다양성 (Embodiment Gap): 제조사마다 팔 길이, 관절 수, 센서 구성이 전부 달라 하나의 정책이 모든 플랫폼에서 동작하지 않음.
고주파 정밀 제어: 인간 수준의 조작은 100Hz 이상의 연속 관절 명령 필요 — 이산 토큰(GPT 방식)으로는 불가능.
데이터 부족: 특정 휴머노이드 플랫폼의 실제 데이터는 극히 적음. 인터넷 스케일로 학습한 뒤 소량 데이터로 적응(파인튜닝)해야 함.
멀티모달 이해 + 실시간 행동 동시 필요: 시각·언어 이해(느림)와 물리 제어(빠름)를 하나의 모델로 통합해야 함.

기존 접근	한계
ACT, Diffusion Policy	특정 로봇 1대에 특화
RT-1, RT-2	Google 클로즈드 소스, 확장성 제한
π0 (Physical Intelligence)	클로즈드 소스
OpenVLA	VLA이지만 휴머노이드 최적화 부재

GR00T N1: 오픈소스 + 멀티 임바디먼트 + 범용 파운데이션 모델.

Core Architecture: 듀얼 시스템 설계

GR00T N1 Architecture Fig.3. GR00T N1 듀얼 시스템 아키텍처 — System 2(VLM) → System 1(Diffusion Transformer)

GR00T N1은 대니얼 카너먼의 "빠른 사고(System 1) / 느린 사고(System 2)" 프레임워크에서 영감받은 구조입니다.

System 2: Vision-Language Module (추론 모듈)

역할: "지금 상황이 뭔지, 무엇을 해야 하는지" 이해

입력:
  - RGB 이미지 (224×224, 카메라 2~4개)
  - 언어 지시 ("Put the apple in the bowl")

처리:
  - NVIDIA Eagle-2 VLM 백본 (SmolLM-1.7B 기반)
  - 이미지 1장 → 64개 토큰으로 압축
  - Vision encoder + Language model 결합

출력:
  - 고수준 컨텍스트 토큰 (1.34B 파라미터)
  - System 1에게 cross-attention으로 전달

하드웨어: NVIDIA L40 GPU
주파수: 10Hz (느린 사고)

System 1: Diffusion Transformer (행동 모듈)

역할: "어떻게 움직일지" 실시간 생성

입력:
  - System 2 출력 토큰 (cross-attention)
  - 현재 로봇 상태 (관절 위치, 속도)
  - 임바디먼트별 인코더 출력

처리:
  - Diffusion Transformer with Flow Matching
  - 4 inference steps (학습 중 ~1000 → 추론 4 스텝)
  - k=16 액션 청크 생성 (ACT의 아이디어 계승)

출력:
  - 연속 관절 명령 (k×DOF 차원)
  - Temporal Ensemble으로 부드럽게 실행

하드웨어: Jetson AGX Orin (온보드 추론 가능)
주파수: 120Hz (빠른 사고)

임바디먼트별 인코더/디코더

서로 다른 로봇 플랫폼을 하나의 모델로 처리하기 위한 핵심:

[입력 단계]
각 로봇의 상태 벡터 (고유 DOF, 센서 구성)
  → 임바디먼트별 Linear Encoder → d_model 공통 공간

[출력 단계]
공통 액션 표현
  → 임바디먼트별 Linear Decoder → 각 로봇의 관절 명령

학습 시: 8개 임바디먼트 데이터가 동일 Transformer 가중치를 공유 → 크로스 임바디먼트 전이 학습 가능.

전체 텐서 흐름 (행렬 크기 포함)

━━━ System 2 Forward Pass (10Hz) ━━━

카메라 이미지   (N_cam, 3, 224, 224)     # N_cam = 2~4
  └─ SigLIP-2 Vision Encoder
     → (N_cam, 64, d_vlm)               # 이미지당 64 토큰, d_vlm ≈ 2048
  └─ flatten
     → (N_cam × 64, d_vlm)             # = (128~256, 2048)

언어 지시 토큰  (L, d_vlm)              # 토크나이징된 instruction

VLM — Eagle-2 (SmolLM2-1.7B 기반):
  concat([visual_tokens, lang_tokens]) # (N_cam×64 + L, 2048)
  → 12번째 레이어 hidden state
  → context_tokens  (N_ctx, 2048)      # System 1에 전달

━━━ System 1 Forward Pass (120Hz) ━━━

로봇 상태      (DOF,)                   # 예: Fourier GR-1 ≈ 23 DOF
  └─ 임바디먼트별 Encoder (Linear)
     → state_token  (1, d_model)        # d_model ≈ 1024

노이즈 액션    (k, DOF)  + 타임스텝 τ   # k=16, Flow Matching 노이즈
  └─ Linear Embedding
     → action_tokens  (k, d_model)     # (16, 1024)

Diffusion Transformer:
  concat([state_token, action_tokens]) # (1+k, d_model) = (17, 1024)
  └─ Self-Attention                    # (17, 1024) → (17, 1024)
  └─ Cross-Attention ← context_tokens # (17, 1024) × (N_ctx, 2048)
  → (17, 1024)

액션 헤드 (Linear):
  (k, d_model) → (k, DOF)             # (16, 1024) → (16, 23)
  → K=4회 denoising → 클린 â_{t:t+k}  # Flow Matching 역산

임바디먼트별 Decoder (Linear):
  (k, DOF) → 관절 명령 (k, DOF)       # 플랫폼별 스케일/오프셋 매핑

Temporal Ensemble:
  청크 중첩 → exp weighted avg         # w_i ∝ exp(-m·i)
  → 120Hz 실행

데이터 피라미드: 스케일 vs 특이성

Data Pyramid Fig.1. GR00T N1 데이터 피라미드 — 아래로 갈수록 양 많음, 위로 갈수록 임바디먼트 특화

GR00T N1의 핵심 학습 전략: 다양성 있는 데이터를 계층적으로 쌓기.

[피라미드 꼭대기] 실제 로봇 데이터 (少 + 高특화)
  - GR00T N1 Humanoid Collection (자체 수집)
  - Open X-Embodiment
  - AgiBot-Alpha
  → 특정 임바디먼트 행동 학습

[중간층] 합성 데이터 (中 + 中특화)
  - DexMimicGen: 88시간 원격조작 → 780,000개 궤적 생성 (11시간 만에)
  - Neural Video Generation: 88시간 → 827시간 영상 (10× 증강)
  - Isaac Sim 시뮬레이션 환경
  → 합성 추가 시 성능 +40% 향상

[피라미드 밑면] 인터넷 스케일 비디오 (多 + 低특화)
  - Ego4D, Ego-Exo4D
  - EPIC-KITCHENS
  - Assembly-101
  - 기타 인간 행동 영상 데이터
  → 범용 시각·운동 사전 지식 습득

라텐트 액션 코드북 (Latent Action Codebook)

문제: 인터넷 비디오에는 액션 레이블이 없음. 로봇 관절 값을 알 방법이 없습니다.

해결책: VQ-VAE 기반 라텐트 액션 코드북

[비디오에서 액션 추출]
비디오 프레임 쌍 (t, t+1)
  → Inverse Dynamics Model
  → 라텐트 액션 코드 (이산 토큰)

학습 중:
  VQ-VAE로 액션 공간을 이산 코드북으로 학습
  → 실제 로봇 데이터로 코드북 의미 정렬
  → 비디오-액션 대응 학습 가능

결과: 액션 레이블 없는 대규모 비디오 데이터로 사전 지식 습득 → 실제 로봇 데이터로 파인튜닝 시 빠른 적응.

실험 결과

시뮬레이션 벤치마크

3개 시뮬레이션 벤치마크에서 Diffusion Policy 대비:

벤치마크	GR00T N1	Diffusion Policy	개선
RoboCasa Kitchen	32.1%	25.6%	+25%
DexMimicGen Cross-Emb.	66.5%	56.1%	+19%
GR-1 Tabletop	50.0%	32.7%	+53%

모든 벤치마크: 태스크당 100개 데모.

실제 로봇 (Fourier GR-1 휴머노이드)

8개 태스크 카테고리, 두 데이터 체제:

데이터 체제	GR00T N1	Diffusion Policy (전체 데이터)
전체 데이터 (100%)	76.8%	46.4%
10% 데이터	42.6%	46.4%

10% 데이터만으로도 전체 데이터 Diffusion Policy 수준 — 파운데이션 모델의 사전 지식 효과.

크로스 임바디먼트 (사전 훈련만으로)

파인튜닝 없이 사전 훈련 체크포인트만으로:

태스크	성공률
양손 Handover	76.6%
새 컨테이너 배치	73.3%

파인튜닝 없이 새 태스크·새 물체에 일반화.

합성 데이터 효과

실제 데이터만: 베이스라인
실제 + 합성 데이터: +40% 성능 향상
합성 생성 시간: 750,000+ 궤적을 11시간 만에 생성
(= 약 9개월치 인간 시연 데이터)

Key Experiments

10% 데이터 체제 실험 — 파운데이션 모델의 진가

가장 의미 있는 실험:

Diffusion Policy (전체 데이터): 46.4%
GR00T N1 (10% 데이터): 42.6%
GR00T N1 (전체 데이터): 76.8%

10% 데이터의 GR00T N1이 100% 데이터의 Diffusion Policy와 맞먹음. 파운데이션 모델의 사전 지식이 데이터 효율을 극적으로 높임 — 새로운 환경에서 데이터 수집 비용 10배 절감 가능.

합성 데이터 스케일링 법칙

DexMimicGen 합성 데이터를 증가시키면 성능이 로그-선형 증가:

실제 데이터 88시간 → GR-1 50%
+ 합성 데이터 780,000궤적 → 성능 +40% 향상

→ 데이터 부족 문제를 합성 데이터로 해결 가능 — 고비용 실제 로봇 수집을 줄이는 현실적 경로.

System 2 vs System 1 역할 분리

ablation 실험: System 2 없이 System 1만 사용 → 성능 대폭 하락.

VLM의 언어·비전 이해가 Diffusion Transformer에게 핵심 컨텍스트를 제공하기 때문 — 단순 Diffusion Policy 대비 언어 조건부 일반화 가능.

Limitations — 현장 엔지니어 관점

알고리즘/시스템 한계:

단기 조작 태스크 중심: 논문 자체가 "short-horizon tabletop manipulation tasks"에 집중한다고 명시. 장거리 이동+조작(loco-manipulation) 같은 장기 태스크는 미지원.
합성 데이터 물리 정확도: 다양한 반사실적(counterfactual) 데이터 생성 시 물리 법칙 위반 가능성. 현실 gap이 여전히 존재.
강한 VLM 백본 필요: 공간 추론 개선을 위해 더 큰 VLM이 필요하다고 저자들이 직접 언급.
System 2가 10Hz: 빠르게 변하는 동적 환경(예: 사람이 갑자기 움직임)에서 VLM 응답이 느림. System 1이 버퍼링하지만 한계 있음.

현장 엔지니어 관점:

Jetson AGX Orin 추론 가능: System 1은 온보드 가능. System 2 (L40)는 엣지에서 무거움 → 실제 배포 시 System 2를 클라우드로 올리고 System 1만 온보드 구성이 현실적.
파인튜닝 최소 사양: RTX A6000 또는 RTX 4090. 일반 연구실 수준에서 가능 — 오픈소스의 실질적 의미가 있음.
Unitree H1 호환성: 공식 지원은 Fourier GR-1, 1X이지만, 임바디먼트별 인코더/디코더 구조 덕분에 새 플랫폼 추가 시 해당 레이어만 교체하면 됨. H1, G1에 붙이는 것 기술적으로 가능.
데이터 피라미드 실전 적용: 새 태스크 추가 시 "실제 50~100개 시연 → DexMimicGen으로 5,000개 합성 → 파인튜닝"이 현재 가장 현실적인 파이프라인.
N1.5, N1.7 후속 버전: 공개 이후 빠르게 N1.5(3B), N1.7이 나왔음. 실제 배포 프로젝트라면 최신 버전 체크 필요.

The Lineage — GR00T N1의 계보

시스템/논문	관계
RT-1 (Google, 2022)	대규모 데이터 + Transformer → 로봇 정책 패러다임
RT-2 (Google, 2023)	VLM을 액션 예측에 직접 활용 (언어→로봇)
ACT (Zhao et al. 2023)	Action Chunking + CVAE — 조작 정밀도 기준 확립
Diffusion Policy (Chi et al. 2023)	확산 모델로 멀티모달 행동 분포 학습
π0 (Physical Intelligence, 2024)	Flow Matching + 멀티 임바디먼트 VLA — GR00T N1과 구조 유사
OpenVLA (Kim et al. 2024)	7B 오픈소스 VLA — 오픈소스 기반 확립
GR00T N1 (NVIDIA, 2025)	**오픈 파운데이션 + 듀얼 시스템 + 데이터 피라미드 — 휴머노이드 표준
GR00T N1.5 / N1.7	후속 버전, 3B 파라미터, 더 많은 임바디먼트
Isaac GR00T Blueprint	GR00T N1 학습 파이프라인 오픈소스 툴킷

NVIDIA가 만든 공식: 오픈 파운데이션 모델 + 합성 데이터 스케일링 + 듀얼 시스템 = 범용 휴머노이드 두뇌. 이 생태계를 주도하면서 하드웨어(AGX Orin, H100)와 소프트웨어(Isaac Sim, GR00T) 모두를 장악하려는 포석.

Summary — Key Takeaways

듀얼 시스템이 핵심 설계 결정 — System 2(VLM 10Hz)가 "무엇을 해야 하는지" 이해하고, System 1(Diffusion Transformer 120Hz)이 "어떻게 움직일지" 실시간 생성. 느린 추론과 빠른 제어를 분리해 둘 다 잘 함.
데이터 피라미드 + 합성 데이터가 데이터 효율 문제를 해결 — 실제 88시간 시연 → 합성 780,000 궤적(11시간), 성능 +40%. 고비용 실제 수집 없이도 스케일 가능.
파운데이션 모델의 실질적 가치: 10% 데이터로 베이스라인 풀데이터 수준 달성 — 새 환경 배포 시 데이터 수집 비용 10배 절감. 이게 파운데이션 모델을 쓰는 이유.
오픈소스 + 멀티 임바디먼트 — GR00T-N1-2B 체크포인트 공개, 임바디먼트별 인코더/디코더로 새 플랫폼 추가 용이. RT-2, π0가 클로즈드인 것과 대조됨.
단기 조작에 강하고 장기 이동+조작에는 미완성 — 현 버전은 테이블탑 조작 전문. 장거리 이동하면서 조작하는 full loco-manipulation은 GR00T N2, N3의 과제. 하드웨어·데이터·아키텍처 3박자 모두 더 필요.

GR00T N1.5: 무엇이 달라졌나

N1 발표 약 2개월 후인 2025년 5월, NVIDIA는 GR00T N1.5를 공개했습니다. 아키텍처 기반은 동일하지만 세 가지 핵심 개선이 이뤄졌습니다.

1. FLARE 손실함수 (Future LAtent Representation Alignment)

N1의 System 2는 미래 프레임을 생성(generative)하는 방식으로 학습했습니다. N1.5는 이를 FLARE로 대체:

[N1] 미래 프레임 픽셀 예측 (generative frame prediction)

[N1.5] 미래 latent 표현 정렬 (FLARE):
  현재 관측 임베딩 → 미래 VLM 임베딩과 정렬 (contrastive)
  → 픽셀 재구성 없이 의미론적 미래 상태 학습

효과:

정책 성능 향상 (픽셀보다 고수준 표현이 제어에 더 유용)
인간 에고 비디오 학습 가능: 액션 레이블 없는 1인칭 비디오에서 직접 학습 가능

2. Eagle 2.5 VLM 업그레이드 + VLM 동결

N1.5는 더 강한 Eagle 2.5 VLM을 사용하고, 사전 훈련·파인튜닝 모두 VLM을 동결(frozen):

[N1] VLM 전체 학습 (end-to-end)

[N1.5] VLM 동결 + 간소화된 Adapter MLP
  - Layer Normalization을 시각/텍스트 토큰 임베딩 모두에 적용
  - VLM 출력 → Adapter MLP → Diffusion Transformer
  - 더 안정적 학습, 더 나은 사전 지식 보존

3. GR00T-Dreams: 36시간으로 3개월치 데이터 생성

N1.5에는 GR00T-Dreams Blueprint를 활용한 대규모 합성 데이터가 포함됩니다:

GR00T-Dreams 파이프라인:
  1. 소량 실제 시연 → DreamGen으로 다양한 신경 궤적 합성
  2. Isaac Sim에서 물리 시뮬레이션 검증
  3. 합성된 12개 새 액션 동사(verb) 데이터

결과:
  - 기존 3개월 수동 데이터 수집 → 36시간으로 대체
  - 1,000개 H100 GPU, 250K steps 학습

GR00T N1 vs N1.5 성능 비교

태스크	N1	N1.5	향상
Language Table (시뮬)	52.8%	93.2%	+76%
실제 GR-1 언어 추종	46.6%	93.3%	+100%
RoboCasa (30 데모)	17.4%	47.5%	+173%
Unitree G1 (1K 데모)	44.0%	98.8%	+125%
DreamGen 12 태스크	13.1%	38.3%	+193%

언어 추종 거의 2배: N1의 46.6% → N1.5의 93.3%. 언어 지시를 이해하고 따르는 능력이 가장 크게 향상됐고, 이는 VLM 업그레이드 + FLARE의 복합 효과.

Unitree G1 98.8%: N1 공식 지원 밖이었던 플랫폼에서 파인튜닝 후 거의 완벽한 성공률 — 크로스 임바디먼트 확장성 입증.

📚 논문: arXiv:2503.14734

🤖 모델: HuggingFace GR00T-N1-2B

🐙 코드: GitHub: NVIDIA/Isaac-GR00T

🤖 N1.5 모델: HuggingFace GR00T-N1.5-3B

📖 N1.5 리서치 페이지: GR00T N1.5 — NVIDIA Research

📖 기술 블로그: NVIDIA Developer Blog

다음 포스트: Swerve Drive — 전방향 이동 플랫폼 역기구학

GR00T N1 + N1.5: NVIDIA 범용 휴머노이드 로봇 파운데이션 모델 완전 분석

TL;DR

Background: 왜 휴머노이드 로봇이 어려운가

Core Architecture: 듀얼 시스템 설계

System 2: Vision-Language Module (추론 모듈)

System 1: Diffusion Transformer (행동 모듈)

임바디먼트별 인코더/디코더

전체 텐서 흐름 (행렬 크기 포함)

데이터 피라미드: 스케일 vs 특이성

라텐트 액션 코드북 (Latent Action Codebook)

실험 결과

시뮬레이션 벤치마크

실제 로봇 (Fourier GR-1 휴머노이드)

크로스 임바디먼트 (사전 훈련만으로)

합성 데이터 효과

Key Experiments

10% 데이터 체제 실험 — 파운데이션 모델의 진가

합성 데이터 스케일링 법칙

System 2 vs System 1 역할 분리

Limitations — 현장 엔지니어 관점

The Lineage — GR00T N1의 계보

Summary — Key Takeaways

GR00T N1.5: 무엇이 달라졌나

1. FLARE 손실함수 (Future LAtent Representation Alignment)

2. Eagle 2.5 VLM 업그레이드 + VLM 동결

3. GR00T-Dreams: 36시간으로 3개월치 데이터 생성

GR00T N1 vs N1.5 성능 비교

Comments

More from this blog

TwinVLA: Bimanual Manipulation from Two Single-Arm VLAs — Outperforming RDT-1B with 50 Episodes

TwinVLA: 단일 팔 VLA 두 개로 양팔 조작 구현 — 50 에피소드로 RDT-1B 능가

Swerve Drive: Slip-Free Omnidirectional Platform — Complete Analysis (2/3/4-Wheel Comparison)

Swerve Drive: 슬립 없는 전방향 이동 플랫폼 완전 분석 (2휠/3휠/4휠 비교)

GR00T N1 & N1.5: NVIDIA's Open-Source Humanoid Foundation Model — Complete Analysis

Command Palette

TL;DR

Background: 왜 휴머노이드 로봇이 어려운가

Core Architecture: 듀얼 시스템 설계

System 2: Vision-Language Module (추론 모듈)

System 1: Diffusion Transformer (행동 모듈)

임바디먼트별 인코더/디코더

전체 텐서 흐름 (행렬 크기 포함)

데이터 피라미드: 스케일 vs 특이성

라텐트 액션 코드북 (Latent Action Codebook)

실험 결과

시뮬레이션 벤치마크

실제 로봇 (Fourier GR-1 휴머노이드)

크로스 임바디먼트 (사전 훈련만으로)

합성 데이터 효과

Key Experiments

10% 데이터 체제 실험 — 파운데이션 모델의 진가

합성 데이터 스케일링 법칙

System 2 vs System 1 역할 분리

Limitations — 현장 엔지니어 관점

The Lineage — GR00T N1의 계보

Summary — Key Takeaways

GR00T N1.5: 무엇이 달라졌나

1. FLARE 손실함수 (Future LAtent Representation Alignment)

2. Eagle 2.5 VLM 업그레이드 + VLM 동결

3. GR00T-Dreams: 36시간으로 3개월치 데이터 생성

GR00T N1 vs N1.5 성능 비교

Comments

More from this blog