Skip to main content

Command Palette

Search for a command to run...

GR00T N1 + N1.5: NVIDIA 범용 휴머노이드 로봇 파운데이션 모델 완전 분석

Published
10 min read
T
I build robots for a living. Not in simulation. Not in a lab. On the floor, with real hardware, real failure modes, and real deadlines. My work spans the full stack of modern robotics: embedded systems firmware, autonomous navigation, and the end-to-end pipeline for Vision-Language-Action (VLA) model development — dataset collection, training, inference optimization, and sim-to-real transfer. I've worked hands-on with platforms from Unitree, Deep Robotics, Dexmate, and Robotis, among others. Each one teaches you something different about the gap between what models promise and what robots actually do.

TL;DR

GR00T N1(arXiv:2503.14734)은 NVIDIA가 2025년 3월 GTC에서 발표한 세계 최초 오픈소스 범용 휴머노이드 로봇 파운데이션 모델입니다. 인간의 인지 구조(System 1/2 이론)에서 영감을 받은 듀얼 시스템 아키텍처: System 2(Eagle-2 VLM, 1.34B 파라미터)가 비전·언어로 환경을 이해하고, System 1(Diffusion Transformer, Flow Matching)이 120Hz 연속 모터 명령을 생성. 데이터 피라미드 전략으로 인터넷 비디오·합성 데이터·실제 로봇 데이터를 계층적으로 학습. Fourier GR-1 휴머노이드 실제 로봇에서 76.8% 성공률 달성. GR00T-N1-2B 모델 체크포인트 오픈소스 공개.

후속: GR00T N1.5 (2025년 5월) — FLARE 손실함수·Eagle 2.5 VLM 업그레이드로 언어 추종률 46.6% → 93.3%로 대폭 향상. GR00T-N1.5-3B 오픈소스 공개.


Background: 왜 휴머노이드 로봇이 어려운가

최근 보스턴다이나믹스, Figure AI, 1X, Fourier 등 수많은 회사가 휴머노이드 로봇을 만들고 있지만, 범용적으로 작동하는 두뇌(정책 모델)는 여전히 부재했습니다.

왜 어려운가:

  1. 형태 다양성 (Embodiment Gap): 제조사마다 팔 길이, 관절 수, 센서 구성이 전부 달라 하나의 정책이 모든 플랫폼에서 동작하지 않음.

  2. 고주파 정밀 제어: 인간 수준의 조작은 100Hz 이상의 연속 관절 명령 필요 — 이산 토큰(GPT 방식)으로는 불가능.

  3. 데이터 부족: 특정 휴머노이드 플랫폼의 실제 데이터는 극히 적음. 인터넷 스케일로 학습한 뒤 소량 데이터로 적응(파인튜닝)해야 함.

  4. 멀티모달 이해 + 실시간 행동 동시 필요: 시각·언어 이해(느림)와 물리 제어(빠름)를 하나의 모델로 통합해야 함.

기존 접근한계
ACT, Diffusion Policy특정 로봇 1대에 특화
RT-1, RT-2Google 클로즈드 소스, 확장성 제한
π0 (Physical Intelligence)클로즈드 소스
OpenVLAVLA이지만 휴머노이드 최적화 부재

GR00T N1: 오픈소스 + 멀티 임바디먼트 + 범용 파운데이션 모델.


Core Architecture: 듀얼 시스템 설계

GR00T N1 Architecture Fig.3. GR00T N1 듀얼 시스템 아키텍처 — System 2(VLM) → System 1(Diffusion Transformer)

GR00T N1은 대니얼 카너먼의 "빠른 사고(System 1) / 느린 사고(System 2)" 프레임워크에서 영감받은 구조입니다.

System 2: Vision-Language Module (추론 모듈)

역할: "지금 상황이 뭔지, 무엇을 해야 하는지" 이해

입력:
  - RGB 이미지 (224×224, 카메라 2~4개)
  - 언어 지시 ("Put the apple in the bowl")

처리:
  - NVIDIA Eagle-2 VLM 백본 (SmolLM-1.7B 기반)
  - 이미지 1장 → 64개 토큰으로 압축
  - Vision encoder + Language model 결합

출력:
  - 고수준 컨텍스트 토큰 (1.34B 파라미터)
  - System 1에게 cross-attention으로 전달

하드웨어: NVIDIA L40 GPU
주파수: 10Hz (느린 사고)

System 1: Diffusion Transformer (행동 모듈)

역할: "어떻게 움직일지" 실시간 생성

입력:
  - System 2 출력 토큰 (cross-attention)
  - 현재 로봇 상태 (관절 위치, 속도)
  - 임바디먼트별 인코더 출력

처리:
  - Diffusion Transformer with Flow Matching
  - 4 inference steps (학습 중 ~1000 → 추론 4 스텝)
  - k=16 액션 청크 생성 (ACT의 아이디어 계승)

출력:
  - 연속 관절 명령 (k×DOF 차원)
  - Temporal Ensemble으로 부드럽게 실행

하드웨어: Jetson AGX Orin (온보드 추론 가능)
주파수: 120Hz (빠른 사고)

임바디먼트별 인코더/디코더

서로 다른 로봇 플랫폼을 하나의 모델로 처리하기 위한 핵심:

[입력 단계]
각 로봇의 상태 벡터 (고유 DOF, 센서 구성)
  → 임바디먼트별 Linear Encoder → d_model 공통 공간

[출력 단계]
공통 액션 표현
  → 임바디먼트별 Linear Decoder → 각 로봇의 관절 명령

학습 시: 8개 임바디먼트 데이터가 동일 Transformer 가중치를 공유 → 크로스 임바디먼트 전이 학습 가능.

전체 텐서 흐름 (행렬 크기 포함)

━━━ System 2 Forward Pass (10Hz) ━━━

카메라 이미지   (N_cam, 3, 224, 224)     # N_cam = 2~4
  └─ SigLIP-2 Vision Encoder
     → (N_cam, 64, d_vlm)               # 이미지당 64 토큰, d_vlm ≈ 2048
  └─ flatten
     → (N_cam × 64, d_vlm)             # = (128~256, 2048)

언어 지시 토큰  (L, d_vlm)              # 토크나이징된 instruction

VLM — Eagle-2 (SmolLM2-1.7B 기반):
  concat([visual_tokens, lang_tokens]) # (N_cam×64 + L, 2048)
  → 12번째 레이어 hidden state
  → context_tokens  (N_ctx, 2048)      # System 1에 전달

━━━ System 1 Forward Pass (120Hz) ━━━

로봇 상태      (DOF,)                   # 예: Fourier GR-123 DOF
  └─ 임바디먼트별 Encoder (Linear)
     → state_token  (1, d_model)        # d_model ≈ 1024

노이즈 액션    (k, DOF)  + 타임스텝 τ   # k=16, Flow Matching 노이즈
  └─ Linear Embedding
     → action_tokens  (k, d_model)     # (16, 1024)

Diffusion Transformer:
  concat([state_token, action_tokens]) # (1+k, d_model) = (17, 1024)
  └─ Self-Attention                    # (17, 1024) → (17, 1024)
  └─ Cross-Attention ← context_tokens # (17, 1024) × (N_ctx, 2048)
  → (17, 1024)

액션 헤드 (Linear):
  (k, d_model) → (k, DOF)             # (16, 1024) → (16, 23)
  → K=4회 denoising → 클린 â_{t:t+k}  # Flow Matching 역산

임바디먼트별 Decoder (Linear):
  (k, DOF) → 관절 명령 (k, DOF)       # 플랫폼별 스케일/오프셋 매핑

Temporal Ensemble:
  청크 중첩 → exp weighted avg         # w_i ∝ exp(-m·i)
  → 120Hz 실행

데이터 피라미드: 스케일 vs 특이성

Data Pyramid Fig.1. GR00T N1 데이터 피라미드 — 아래로 갈수록 양 많음, 위로 갈수록 임바디먼트 특화

GR00T N1의 핵심 학습 전략: 다양성 있는 데이터를 계층적으로 쌓기.

[피라미드 꼭대기] 실제 로봇 데이터 (少 + 高특화)
  - GR00T N1 Humanoid Collection (자체 수집)
  - Open X-Embodiment
  - AgiBot-Alpha
  → 특정 임바디먼트 행동 학습

[중간층] 합성 데이터 (中 + 中특화)
  - DexMimicGen: 88시간 원격조작 → 780,000개 궤적 생성 (11시간 만에)
  - Neural Video Generation: 88시간 → 827시간 영상 (10× 증강)
  - Isaac Sim 시뮬레이션 환경
  → 합성 추가 시 성능 +40% 향상

[피라미드 밑면] 인터넷 스케일 비디오 (多 + 低특화)
  - Ego4D, Ego-Exo4D
  - EPIC-KITCHENS
  - Assembly-101
  - 기타 인간 행동 영상 데이터
  → 범용 시각·운동 사전 지식 습득

라텐트 액션 코드북 (Latent Action Codebook)

문제: 인터넷 비디오에는 액션 레이블이 없음. 로봇 관절 값을 알 방법이 없습니다.

해결책: VQ-VAE 기반 라텐트 액션 코드북

[비디오에서 액션 추출]
비디오 프레임 쌍 (t, t+1)
  → Inverse Dynamics Model
  → 라텐트 액션 코드 (이산 토큰)

학습 중:
  VQ-VAE로 액션 공간을 이산 코드북으로 학습
  → 실제 로봇 데이터로 코드북 의미 정렬
  → 비디오-액션 대응 학습 가능

결과: 액션 레이블 없는 대규모 비디오 데이터로 사전 지식 습득 → 실제 로봇 데이터로 파인튜닝 시 빠른 적응.


실험 결과

시뮬레이션 벤치마크

3개 시뮬레이션 벤치마크에서 Diffusion Policy 대비:

벤치마크GR00T N1Diffusion Policy개선
RoboCasa Kitchen32.1%25.6%+25%
DexMimicGen Cross-Emb.66.5%56.1%+19%
GR-1 Tabletop50.0%32.7%+53%

모든 벤치마크: 태스크당 100개 데모.

실제 로봇 (Fourier GR-1 휴머노이드)

8개 태스크 카테고리, 두 데이터 체제:

데이터 체제GR00T N1Diffusion Policy (전체 데이터)
전체 데이터 (100%)76.8%46.4%
10% 데이터42.6%46.4%

10% 데이터만으로도 전체 데이터 Diffusion Policy 수준 — 파운데이션 모델의 사전 지식 효과.

크로스 임바디먼트 (사전 훈련만으로)

파인튜닝 없이 사전 훈련 체크포인트만으로:

태스크성공률
양손 Handover76.6%
새 컨테이너 배치73.3%

파인튜닝 없이 새 태스크·새 물체에 일반화.

합성 데이터 효과

실제 데이터만: 베이스라인
실제 + 합성 데이터: +40% 성능 향상
합성 생성 시간: 750,000+ 궤적을 11시간 만에 생성
(= 약 9개월치 인간 시연 데이터)

Key Experiments

10% 데이터 체제 실험 — 파운데이션 모델의 진가

가장 의미 있는 실험:

Diffusion Policy (전체 데이터): 46.4%
GR00T N1 (10% 데이터): 42.6%
GR00T N1 (전체 데이터): 76.8%

10% 데이터의 GR00T N1이 100% 데이터의 Diffusion Policy와 맞먹음. 파운데이션 모델의 사전 지식이 데이터 효율을 극적으로 높임 — 새로운 환경에서 데이터 수집 비용 10배 절감 가능.

합성 데이터 스케일링 법칙

DexMimicGen 합성 데이터를 증가시키면 성능이 로그-선형 증가:

실제 데이터 88시간 → GR-1 50%
+ 합성 데이터 780,000궤적 → 성능 +40% 향상

데이터 부족 문제를 합성 데이터로 해결 가능 — 고비용 실제 로봇 수집을 줄이는 현실적 경로.

System 2 vs System 1 역할 분리

ablation 실험: System 2 없이 System 1만 사용 → 성능 대폭 하락.

VLM의 언어·비전 이해가 Diffusion Transformer에게 핵심 컨텍스트를 제공하기 때문 — 단순 Diffusion Policy 대비 언어 조건부 일반화 가능.


Limitations — 현장 엔지니어 관점

알고리즘/시스템 한계:

  1. 단기 조작 태스크 중심: 논문 자체가 "short-horizon tabletop manipulation tasks"에 집중한다고 명시. 장거리 이동+조작(loco-manipulation) 같은 장기 태스크는 미지원.

  2. 합성 데이터 물리 정확도: 다양한 반사실적(counterfactual) 데이터 생성 시 물리 법칙 위반 가능성. 현실 gap이 여전히 존재.

  3. 강한 VLM 백본 필요: 공간 추론 개선을 위해 더 큰 VLM이 필요하다고 저자들이 직접 언급.

  4. System 2가 10Hz: 빠르게 변하는 동적 환경(예: 사람이 갑자기 움직임)에서 VLM 응답이 느림. System 1이 버퍼링하지만 한계 있음.

현장 엔지니어 관점:

  • Jetson AGX Orin 추론 가능: System 1은 온보드 가능. System 2 (L40)는 엣지에서 무거움 → 실제 배포 시 System 2를 클라우드로 올리고 System 1만 온보드 구성이 현실적.

  • 파인튜닝 최소 사양: RTX A6000 또는 RTX 4090. 일반 연구실 수준에서 가능 — 오픈소스의 실질적 의미가 있음.

  • Unitree H1 호환성: 공식 지원은 Fourier GR-1, 1X이지만, 임바디먼트별 인코더/디코더 구조 덕분에 새 플랫폼 추가 시 해당 레이어만 교체하면 됨. H1, G1에 붙이는 것 기술적으로 가능.

  • 데이터 피라미드 실전 적용: 새 태스크 추가 시 "실제 50~100개 시연 → DexMimicGen으로 5,000개 합성 → 파인튜닝"이 현재 가장 현실적인 파이프라인.

  • N1.5, N1.7 후속 버전: 공개 이후 빠르게 N1.5(3B), N1.7이 나왔음. 실제 배포 프로젝트라면 최신 버전 체크 필요.


The Lineage — GR00T N1의 계보

시스템/논문관계
RT-1 (Google, 2022)대규모 데이터 + Transformer → 로봇 정책 패러다임
RT-2 (Google, 2023)VLM을 액션 예측에 직접 활용 (언어→로봇)
ACT (Zhao et al. 2023)Action Chunking + CVAE — 조작 정밀도 기준 확립
Diffusion Policy (Chi et al. 2023)확산 모델로 멀티모달 행동 분포 학습
π0 (Physical Intelligence, 2024)Flow Matching + 멀티 임바디먼트 VLA — GR00T N1과 구조 유사
OpenVLA (Kim et al. 2024)7B 오픈소스 VLA — 오픈소스 기반 확립
GR00T N1 (NVIDIA, 2025)**오픈 파운데이션 + 듀얼 시스템 + 데이터 피라미드 — 휴머노이드 표준
GR00T N1.5 / N1.7후속 버전, 3B 파라미터, 더 많은 임바디먼트
Isaac GR00T BlueprintGR00T N1 학습 파이프라인 오픈소스 툴킷

NVIDIA가 만든 공식: 오픈 파운데이션 모델 + 합성 데이터 스케일링 + 듀얼 시스템 = 범용 휴머노이드 두뇌. 이 생태계를 주도하면서 하드웨어(AGX Orin, H100)와 소프트웨어(Isaac Sim, GR00T) 모두를 장악하려는 포석.


Summary — Key Takeaways

  1. 듀얼 시스템이 핵심 설계 결정 — System 2(VLM 10Hz)가 "무엇을 해야 하는지" 이해하고, System 1(Diffusion Transformer 120Hz)이 "어떻게 움직일지" 실시간 생성. 느린 추론과 빠른 제어를 분리해 둘 다 잘 함.

  2. 데이터 피라미드 + 합성 데이터가 데이터 효율 문제를 해결 — 실제 88시간 시연 → 합성 780,000 궤적(11시간), 성능 +40%. 고비용 실제 수집 없이도 스케일 가능.

  3. 파운데이션 모델의 실질적 가치: 10% 데이터로 베이스라인 풀데이터 수준 달성 — 새 환경 배포 시 데이터 수집 비용 10배 절감. 이게 파운데이션 모델을 쓰는 이유.

  4. 오픈소스 + 멀티 임바디먼트 — GR00T-N1-2B 체크포인트 공개, 임바디먼트별 인코더/디코더로 새 플랫폼 추가 용이. RT-2, π0가 클로즈드인 것과 대조됨.

  5. 단기 조작에 강하고 장기 이동+조작에는 미완성 — 현 버전은 테이블탑 조작 전문. 장거리 이동하면서 조작하는 full loco-manipulation은 GR00T N2, N3의 과제. 하드웨어·데이터·아키텍처 3박자 모두 더 필요.



GR00T N1.5: 무엇이 달라졌나

N1 발표 약 2개월 후인 2025년 5월, NVIDIA는 GR00T N1.5를 공개했습니다. 아키텍처 기반은 동일하지만 세 가지 핵심 개선이 이뤄졌습니다.

1. FLARE 손실함수 (Future LAtent Representation Alignment)

N1의 System 2는 미래 프레임을 생성(generative)하는 방식으로 학습했습니다. N1.5는 이를 FLARE로 대체:

[N1] 미래 프레임 픽셀 예측 (generative frame prediction)

[N1.5] 미래 latent 표현 정렬 (FLARE):
  현재 관측 임베딩 → 미래 VLM 임베딩과 정렬 (contrastive)
  → 픽셀 재구성 없이 의미론적 미래 상태 학습

효과:

  • 정책 성능 향상 (픽셀보다 고수준 표현이 제어에 더 유용)
  • 인간 에고 비디오 학습 가능: 액션 레이블 없는 1인칭 비디오에서 직접 학습 가능

2. Eagle 2.5 VLM 업그레이드 + VLM 동결

N1.5는 더 강한 Eagle 2.5 VLM을 사용하고, 사전 훈련·파인튜닝 모두 VLM을 동결(frozen):

[N1] VLM 전체 학습 (end-to-end)

[N1.5] VLM 동결 + 간소화된 Adapter MLP
  - Layer Normalization을 시각/텍스트 토큰 임베딩 모두에 적용
  - VLM 출력 → Adapter MLP → Diffusion Transformer
  - 더 안정적 학습, 더 나은 사전 지식 보존

3. GR00T-Dreams: 36시간으로 3개월치 데이터 생성

N1.5에는 GR00T-Dreams Blueprint를 활용한 대규모 합성 데이터가 포함됩니다:

GR00T-Dreams 파이프라인:
  1. 소량 실제 시연 → DreamGen으로 다양한 신경 궤적 합성
  2. Isaac Sim에서 물리 시뮬레이션 검증
  3. 합성된 12개 새 액션 동사(verb) 데이터

결과:
  - 기존 3개월 수동 데이터 수집 → 36시간으로 대체
  - 1,000개 H100 GPU, 250K steps 학습

GR00T N1 vs N1.5 성능 비교

태스크N1N1.5향상
Language Table (시뮬)52.8%93.2%+76%
실제 GR-1 언어 추종46.6%93.3%+100%
RoboCasa (30 데모)17.4%47.5%+173%
Unitree G1 (1K 데모)44.0%98.8%+125%
DreamGen 12 태스크13.1%38.3%+193%

언어 추종 거의 2배: N1의 46.6% → N1.5의 93.3%. 언어 지시를 이해하고 따르는 능력이 가장 크게 향상됐고, 이는 VLM 업그레이드 + FLARE의 복합 효과.

Unitree G1 98.8%: N1 공식 지원 밖이었던 플랫폼에서 파인튜닝 후 거의 완벽한 성공률 — 크로스 임바디먼트 확장성 입증.


📚 논문: arXiv:2503.14734

🤖 모델: HuggingFace GR00T-N1-2B

🐙 코드: GitHub: NVIDIA/Isaac-GR00T

🤖 N1.5 모델: HuggingFace GR00T-N1.5-3B

📖 N1.5 리서치 페이지: GR00T N1.5 — NVIDIA Research

📖 기술 블로그: NVIDIA Developer Blog

다음 포스트: Swerve Drive — 전방향 이동 플랫폼 역기구학

More from this blog

TwinVLA: 단일 팔 VLA 두 개로 양팔 조작 구현 — 50 에피소드로 RDT-1B 능가

TL;DR TwinVLA(arXiv:2511.05275)는 두 개의 사전 훈련된 단일 팔 VLA를 조합해 양팔 조작(Bimanual Manipulation)을 구현하는 프레임워크다. 양팔 데이터로 처음부터 대규모 사전 훈련 없이, 단일 팔 데이터만으로 사전 훈련된 SingleVLA(0.8B)를 두 개 인스턴스로 구성하고 Joint Attention + Causal Mask로 양팔을 협조시킨다. 결과: RDT-1B(학습 데이터 2,400시간)을 ...

Apr 21, 20268 min read1

Swerve Drive: 슬립 없는 전방향 이동 플랫폼 완전 분석 (2휠/3휠/4휠 비교)

TL;DR Swerve Drive(스워브 드라이브)는 각 바퀴가 독립적으로 조향(steering)과 구동(driving)을 동시에 수행하는 전방향 이동 플랫폼이다. 모든 방향으로 슬립 없이 이동할 수 있으면서도 메카넘 휠 대비 높은 견인력을 유지한다. 핵심은 역기구학(Inverse Kinematics): 원하는 차체 속도(vx, vy, ω)를 입력받아 각 바퀴의 속도와 각도를 실시간 계산한다. 산업용 AGV, 경쟁 로봇(FRC), 서비스 로봇 ...

Apr 20, 202612 min read5

telos-robotics

26 posts

VLA Paper Reviews RT-1, RT-2, π0, OpenVLA, Octo — the models that define where robot learning is headed. Not just summaries. Architecture breakdowns, training details, deployment considerations. Autonomous Driving Navigation Path planning algorithms, localization techniques (LiDAR SLAM ...), perception stacks. The building blocks of autonomous mobile robots. Robot Platform Notes Hands-on observations from working with specific hardware. Things you only learn by running the robot until it fails.