D4RT, 기존보다 최대 300배 빠른 4D 재구성 기술

최종 수정일: 2026년 01월 27일

안녕하세요, 아이엔마케팅 김채원입니다.

구글 딥마인드가 또 한 번 AI의 기준을 끌어올렸습니다.

평면 영상만 보고도 입체 공간과 시간의 흐름을 동시에 이해하는 새로운 AI 모델 ‘D4RT(Dynamic 4D Reconstruction and Tracking)‘를 공개한 것입니다. 기존 최고 수준 기술보다 최대 300배 빠른 속도입니다.

왜 영상 AI는 그동안 느리고 비쌌을까요?

사람은 눈앞의 장면만 보지 않습니다. 방금 전 상황을 기억하고, 다음에 벌어질 움직임을 자연스럽게 예측합니다. 우리의 뇌는 현실에 대한 지속적인 표현을 유지하면서 과거, 현재, 미래의 인과 관계를 직관적으로 파악합니다.

AI가 이처럼 세상을 이해하려면 복잡한 역문제(inverse problem)를 풀어야 합니다. 영상은 본질적으로 2D 평면의 연속입니다. 여기서 풍부한 3D 세계의 움직임을 복원해야 합니다.

기존에는 이 작업을 위해 세 가지 별도 모델이 필요했습니다:

  • 깊이 추정(Depth Estimation): 물체가 카메라에서 얼마나 떨어져 있는지 계산
  • 시공간 대응(Spatio-Temporal Correspondence): 모든 픽셀이 시간에 따라 어디로 이동하는지 추적
  • 카메라 파라미터 추정(Camera Parameter Estimation): 카메라 자체의 움직임을 추정

문제는 이 세 가지를 각각 다른 모델로 처리해야 했다는 점입니다. 모델을 여러 개 조합하니 느리고, 단편적이었습니다. 계산 비용도 높아서 실시간 처리는 어려웠습니다.

D4RT, 여러 AI를 하나로 묶었습니다

D4RT는 이 구조를 근본적으로 바꿨습니다.

핵심은 ‘질문 기반 처리 방식(Query-Based Approach)’입니다. AI가 영상 전체를 무겁게 계산하는 대신, 하나의 근본적인 질문으로 모든 작업을 해결합니다:

특정 픽셀특정 시간에, 선택한 카메라 시점에서 3D 공간의 어디에 위치하는가?

D4RT는 통합 인코더-디코더 트랜스포머 아키텍처로 작동합니다. 글로벌 셀프 어텐션 인코더가 입력 영상을 장면의 기하학과 움직임에 대한 압축된 표현으로 변환합니다. 그런 다음 경량 디코더가 이 표현을 질의하여 특정 시점의 3D 위치를 계산합니다.

질의가 독립적이기 때문에 현대 AI 하드웨어에서 병렬 처리가 가능합니다. 이 유연한 질의 방식으로 D4RT는 다양한 4D 작업을 단일 모델로 수행합니다:

포인트 트래킹 (Point Tracking)

서로 다른 시간 단계에 걸쳐 픽셀의 위치를 질의하여 3D 궤적을 예측합니다. 중요한 점은, 물체가 다른 프레임에서 보이지 않아도 모델이 예측할 수 있다는 것입니다.

포인트 클라우드 재구성 (Point Cloud Reconstruction)

시간과 카메라 시점을 고정하면, D4RT는 장면의 완전한 3D 구조를 직접 생성합니다. 별도의 카메라 추정이나 영상별 반복 최적화 같은 추가 단계가 필요 없습니다.

카메라 포즈 추정 (Camera Pose Estimation)

서로 다른 시점에서 동일한 순간의 3D 스냅샷을 생성하고 정렬하여 카메라의 이동 경로를 복원합니다.

원래 세 가지 모델이 필요했던 작업을 하나로 통합했습니다. 필요한 정보만 계산하니 속도는 빨라지고, 시스템은 단순해졌습니다.

💡

D4RT가 영상을 어떻게 4D로 재구성하는지 직접 확인할 수 있습니다. d4rt-paper.github.io 에서 마우스로 드래그하면 3D 장면을 회전시켜 볼 수 있습니다.

1분 영상, 5초 만에 입체 세계로

구글 딥마인드에 따르면, D4RT는 1분짜리 영상을 단일 TPU 칩에서 약 5초 만에 입체로 재구성했습니다. 기존 최고 성능 모델이 최대 10분 걸리던 작업입니다. 약 120배 향상입니다.

중요한 점은, D4RT의 정확도가 속도 때문에 희생되지 않았다는 것입니다. 테스트에서 기존 최고 수준 대비 18배에서 최대 300배 빠른 성능을 보였습니다.

빠른 모션 블러와 비강체 변형이 포함된 복잡한 합성 장면을 다루는 MPI Sintel 벤치마크에서, D4RT는 최근의 강력한 모델들보다 우수한 정확도를 기록했습니다. 물체나 카메라가 빠르게 움직여도 기하학적 구조를 정확하게 재구성합니다.

이미지 출처 : 구글 딥마인드 블로그

Aria Digital Twin 데이터셋(스마트 글래스 촬영 영상)에서도 D4RT는 3D 포인트 트래킹 최고 성능을 달성했습니다. 복잡한 자기 중심 움직임(ego-motion)과 가려짐(occlusion)이 있는 실제 가정 환경에서도 안정적으로 작동합니다.

예상 활용 시나리오

가려진 1%의 위험까지 예측하는 실시간 4차원 지능, 픽셀 단위의 정밀한 궤적 추적과 실시간 3D 재구성으로, 자율주행차의 눈을 넘어 예측하는 뇌가 됩니다. 이미지는 나노바나나프로로 생성했습니다.

아래 내용은 D4RT 기술 특성을 바탕으로 예상한 활용 시나리오입니다.

  • 물류·유통: 창고 로봇이 주변 환경을 빠르게 파악합니다. 사람과 물체가 움직이는 공간에서도 안전하게 이동하고, 피킹 정확도가 올라갑니다.
  • 스마트 글래스: AR 기기가 현실 공간을 즉각 이해하고 디지털 정보를 오버레이합니다. 작업 현장에서 조립 가이드를 띄우거나, 내비게이션 정보를 표시할 수 있습니다.
  • 자율주행: 차량이 주변 환경의 3D 구조와 움직임을 동시에 파악합니다. 보행자, 다른 차량의 궤적을 예측하는 데 활용할 수 있습니다.

AI 도입, 이제는 ‘언제’의 문제입니다

빅테크가 발표하는 최첨단 기술은 점차 상용화됩니다. 지금 당장 도입하실 필요는 없습니다. 하지만 이런 기술의 방향을 알아두시면 좋습니다

AI 도입은 ‘할지 말지’보다 ‘언제 할지’를 고민해야 하는 시대가 되고 있습니다.

아이엔마케팅에서는 단순한 광고 대행이 아닌, 학문적 배경과 다양한 마케팅 경험을 바탕으로 AI 기술을 활용한 자동화 마케팅 시스템을 구축합니다. 구글 애즈, 유튜브 광고 등 고객사의 내부 인력 부담 없이 전문적인 마케팅 성과를 달성하는 것이 목표입니다.

아이엔마케팅은 Google과 AI의 변화에 가장 빠르게 대응하는 구글 전문 광고 대행사입니다. 내 비즈니스에 맞는 구글 광고 전략이 필요하시다면 ‘아이엔마케팅 홈페이지‘, 혹은 AI 아이엔마케팅 사이트에 방문해주세요. 자세한 상담 및 제안서를 받아보시고 싶으신가요? 지금 아이엔마케팅 홈페이지에서 무료 제안서를 신청하시고, 내 비즈니스에 최적화된 맞춤 제안서를 받아보세요.

위로 스크롤