Table of contents
안녕하세요, 아이엔마케팅 김채원입니다.
2026년 4월 2일, 구글이 Gemini API에 두 가지 새로운 추론 티어를 발표했습니다. Flex(플렉스 추론)와 Priority(우선순위 추론)입니다.
기존에는 Standard 티어(기본 요금)와 Batch(비동기 대량 처리) 두 가지만 있었습니다. 이제 Flex와 Priority가 추가되면서, 워크로드 특성에 따라 비용과 응답 속도를 더 세밀하게 조절할 수 있게 되었습니다.
한눈에 보는 4가지 티어 비교

| 티어 | 요금 | 응답 속도 | 안정성 | 적합한 용도 |
|---|---|---|---|---|
| Flex | Standard 대비 50% 할인 | 분 (1~15분 타겟) | 최선형 (삭제 가능) | 백그라운드 작업, 대량 처리 |
| Standard (표준) | 기본 요금 | 초에서 분 | 높음 / 중간 높음 | 일반 애플리케이션 |
| Priority (우선순위) | Standard 대비 75~100% 추가 | 낮음 (초) | 높음 (삭제 불가) | 실시간 챗봇, 고객 응대 |
| Batch (일괄) | Standard 대비 50% 할인 | 최대 24시간 | 높음 (처리량) | 대규모 오프라인 작업 |
Flex (플렉스 추론), 비용을 절반으로

Flex는 응답 속도를 양보하는 대신 비용을 50% 절감하는 티어입니다. 토큰당 과금 기준으로 Standard의 절반입니다.
핵심 특징
- 비용: Standard 대비 50% 할인 (토큰당 청구)
- 응답 속도: 1~15분 목표 (보장되지 않음)
- 안정성: Best-effort — Standard 트래픽이 급증하면 Flex 요청이 밀릴 수 있음
- 사용법: API 요청 시 service_tier: “flex” 파라미터 추가
주의사항

Flex는 “최선을 다하지만 보장하지 않는(Best-effort)” 방식입니다. Flex 용량을 사용할 수 없거나, 시스템이 정체된 경우에는 503 또는 429 오류를 반환합니다. 또한, 자동으로 Standard로 업그레이드되지 않으므로, 클라이언트 측에서 10분 이상의 타임아웃과 지수 백오프(exponential backoff) 재시도 로직을 구현해야 합니다.
활용 사례
- 오프라인 평가 및 회귀 테스트
- 백그라운드 에이전트 (CRM 업데이트, 프로필 작성 등)
- 예산이 제한된 연구에서 대량 토큰 사용
- 실시간 응답이 필요 없는 모든 동기(synchronous) 처리
Priority (우선순위 추론), 응답 속도 최우선

Priority는 비용을 더 내는 대신 가장 빠르고 안정적인 응답을 보장하는 티어입니다.
핵심 특징
- 비용: Standard 대비 75~100% 추가 (토큰당)
- 응답 속도: 수 초 이내
- 안정성: 높음 — 트래픽 급증 시에도 밀리지 않음
- 사용법: API 요청 시 service_tier: “priority” 파라미터 추가
- 이용 조건: Tier 2 및 Tier 3 사용자만 이용 가능
Flex와의 핵심 차이: Graceful Degradation
Priority의 가장 큰 장점은 요청이 실패하지 않는다는 것입니다. 속도 제한을 초과하면 503 오류 대신 자동으로 Standard 티어로 다운그레이드됩니다. 이때 요금도 Standard 기준으로 청구됩니다. 서비스 중단 없이 안정적으로 운영할 수 있는 구조입니다.
활용 사례
- 고객 서비스 챗봇 (즉각 응답 필요)
- 실시간 사기 탐지, 티켓 분류
- 유료 고객을 위해 더 높은 서비스를 보장해야 하는 개발자
지원 모델 (2026년 4월 기준)

- Gemini 3.1 Flash-Lite preview
- Gemini 3.1 Pro preview
- Gemini 3 Flash preview
- Gemini 3 Pro Image preview
- Gemini 2.5 Pro
- Gemini 2.5 Flash
- Gemini 2.5 Flash Image
- Gemini 2.5 Flash-Lite
자주 묻는 질문 (FAQ)
Q1. Flex와 Batch의 차이는 무엇인가요?
A. 둘 다 50% 할인이지만, Flex는 동기(synchronous) 처리로 1~15분 내 응답을 받습니다. Batch는 비동기 처리로 최대 24시간이 걸릴 수 있습니다. 순차적으로 결과를 확인하며 진행해야 하는 작업(예: 에이전트)은 Flex, 한꺼번에 던져두고 나중에 수거하는 작업은 Batch가 적합합니다.
Q2. Priority 요금이 Standard보다 75~100% 비싼데, 그만큼 가치가 있나요?
A. 서비스 중단이 비용보다 큰 리스크인 경우에 가치가 있습니다. Priority는 속도 제한 초과 시에도 503 오류 대신 자동으로 Standard로 다운그레이드되어 서비스가 끊기지 않습니다. 고객 대면 챗봇이나 실시간 사기 탐지처럼 중단이 허용되지 않는 서비스에 적합합니다.
Q3. Flex 요청이 15분 넘게 걸릴 수도 있나요?
A. 네. 1~15분은 목표치이며 보장되지 않습니다. Flex 용량을 사용할 수 없거나, 시스템이 정체된 경우에는 Flex 요청이 밀리거나 503 오류가 발생할 수 있으므로, 클라이언트 측에서 타임아웃과 재시도 로직을 구현해야 합니다.
아이엔마케팅은 Google과 AI의 변화에 가장 빠르게 대응하는 구글 전문 광고 대행사입니다. 내 비즈니스에 맞는 구글 광고 전략이 필요하시다면 ‘아이엔마케팅 홈페이지‘, 혹은 AI 아이엔마케팅 사이트에 방문해주세요. 자세한 상담 및 제안서를 받아보시고 싶으신가요? 지금 아이엔마케팅 홈페이지에서 무료 제안서를 신청하시고, 내 비즈니스에 최적화된 맞춤 제안서를 받아보세요.




