안녕하세요, 아이엔마케팅 김채원입니다.
새로운 AI 모델이 나올 때마다 빠지지 않는 것이 있습니다. “벤치마크 1위”, “추론 성능 00% 향상” 과 같은 숫자입니다. 그런데 이 점수가 정확히 무엇을 의미하는지, 실제로 AI가 얼마나 똑똑해진 건지 궁금했던 적 없으신가요?
사실 기존 벤치마크에는 한계가 있습니다. AI가 인터넷에서 학습한 데이터를 “기억”해서 높은 점수를 받는 건지, 진짜 추론해서 문제를 푸는 건지 구분하기 어렵습니다. 점수가 100%에 가까워지면 모델 간 차이도 거의 보이지 않습니다.
Google DeepMind는 이 문제를 게임으로 풀려고 합니다. AI끼리 체스, 포커, 마피아 게임을 시켜서 실력을 평가하는 Kaggle Game Arena입니다. 2025년 체스로 시작해, 2026년 2월 포커와 마피아 게임까지 확장되었습니다.
Game Arena란?

Game Arena는 Google DeepMind와 Kaggle이 공동 운영하는 AI 벤치마킹 플랫폼입니다. 여러 AI 모델을 같은 게임에 투입하고, 서로 대결시켜 전략적 사고력을 측정합니다. 게임은 매번 상황이 달라지기 때문에 정답을 외워서 풀 수 없고, 상대가 강해지면 난이도도 자동으로 올라갑니다.
현재 Game Arena에서 운영 중인 게임은 3가지입니다.
체스, 완전한 정보 속의 전략

체스는 모든 정보가 공개된 완전 정보 게임(Perfect Information Game)입니다. 상대의 말 위치, 가능한 수가 전부 보입니다. AI 모델은 이 환경에서 장기적인 계획 수립과 논리적 추론 능력을 평가받습니다.
2026년 2월 기준, Gemini 3 Pro와 Gemini 3 Flash가 체스 리더보드 1, 2위를 차지하고 있습니다. 주목할 점은 이들이 체스 전용 엔진이 아니라 언어 모델(LLM)이라는 것입니다. 수십억 개의 텍스트 데이터로 학습한 AI가 체스에서도 전략적 사고를 보여주고 있다는 의미입니다.
마피아 게임(Werewolf), 불완전한 정보 속의 소통

체스는 모든 정보가 보이지만, 현실 세계는 그렇지 않습니다. Game Arena가 마피아 게임(Werewolf)을 추가한 이유입니다.
마피아 게임은 마을 사람 팀과 늑대인간 팀으로 나뉘어 대화를 통해 상대 정체를 추리하는 사회적 추론 게임입니다. AI 모델은 이 게임에서 다음 능력을 평가받습니다.
- 커뮤니케이션 — 자연어로 다른 플레이어와 대화하며 정보를 교환
- 설득과 협상 — 팀원을 설득하고 동맹을 맺는 능력
- 거짓말 탐지 — 상대의 발언과 투표 패턴 사이의 모순을 발견하는 능력
이런 “소프트 스킬”은 AI 어시스턴트가 사람과 협업하거나, 기업 환경에서 다른 AI 에이전트와 함께 작동할 때 필수적인 능력입니다. 또한 Google DeepMind는 이 게임을 AI 안전성 연구 환경으로도 활용하고 있습니다. AI가 속이는 역할(늑대인간)과 진실을 찾는 역할(마을 사람) 양쪽을 모두 수행하면서, 기만 행위를 탐지하고 방어하는 능력을 테스트할 수 있기 때문입니다.
포커, 불확실성 속의 리스크 관리

마피아 게임이 사회적 추론을 테스트한다면, 포커는 리스크 관리를 테스트합니다.
포커는 상대의 패를 볼 수 없는 불완전 정보 게임입니다. AI 모델은 제한된 정보 속에서 확률을 계산하고, 상대의 플레이 스타일을 분석하며, 베팅 전략을 실시간으로 조정해야 합니다. Game Arena에서는 헤즈업 노리밋 텍사스 홀덤 방식으로 AI 포커 토너먼트를 진행합니다.
세 가지 게임의 점수는 하단에서 확인할 수 있습니다.

왜 게임으로 AI를 평가할까
정리하면, 체스는 전략적 추론과 장기 계획 능력을 측정하고, 마피아 게임은 소통·협상·거짓말 탐지처럼 팀 협업과 AI 안전성에 필요한 능력을 평가합니다. 포커는 확률 계산과 리스크 관리, 즉 불확실한 상황에서 판단을 내리는 능력을 테스트합니다. 세 게임이 각각 다른 차원의 지능을 측정하는 셈입니다.
Google DeepMind가 게임을 벤치마크로 선택한 이유는 크게 세 가지입니다.
- 암기가 불가능합니다. 매번 상황이 달라지기 때문에 기존 벤치마크처럼 정답을 외워서 풀 수 없습니다.
- 난이도가 자동으로 올라갑니다. 상대 모델이 강해지면 게임 자체가 어려워지므로, 벤치마크가 포화 상태에 빠지지 않습니다.
- 현실에서 필요한 능력을 직접 측정합니다. 계획, 적응, 추론, 소통처럼 실제 업무 환경에서 요구되는 역량을 게임이라는 형태로 평가할 수 있습니다.
라이브 토너먼트 진행 중

2026년 2월 2일부터 4일까지, Game Arena 라이브 토너먼트가 진행되고 있습니다. 체스 그랜드마스터 히카루 나카무라(Hikaru Nakamura)와 포커 명예의 전당 멤버가 해설을 맡아, AI 모델 간 대결을 실시간으로 분석하고 있습니다.
참가 모델에는 Google의 Gemini 3 Pro/Flash, OpenAI의 o3, Anthropic의 Claude Opus 4, xAI의 Grok 4 등 주요 프론티어 모델이 포함되어 있으며, 매일 오전 9시 30분~11시 30분(미국 태평양 시간) 동안 라이브 스트리밍됩니다. 최종 포커 순위는 2월 4일 토너먼트 종료 후 kaggle.com/game-arena에서 공개될 예정입니다.
아이엔마케팅은 빠르게 변화하는 온라인마케팅 시장에 최신 AI 기술들을 가장 빠르게 적용하는 구글광고대행사입니다. 또한, 고객사 마케팅 업무에 소요되는 시간을 절약하고, 수없이 늘어나는 마케팅 채널에 효과적으로 반영합니다.
- AI 기반 마케팅 대행이 필요하시다면 → AI 마케팅 올인원
- AI로 내 홈페이지를 분석해 보고 싶다면 → 아이엔 광고주센터
아이엔마케팅은 Google과 AI의 변화에 가장 빠르게 대응하는 구글 전문 광고 대행사입니다. 내 비즈니스에 맞는 구글 광고 전략이 필요하시다면 ‘아이엔마케팅 홈페이지‘, 혹은 AI 아이엔마케팅 사이트에 방문해주세요. 자세한 상담 및 제안서를 받아보시고 싶으신가요? 지금 아이엔마케팅 홈페이지에서 무료 제안서를 신청하시고, 내 비즈니스에 최적화된 맞춤 제안서를 받아보세요.




