Gemini 3 Flash Agentic Vision, AI가 이미지를 ‘수사’하는 시대

최종 수정일: 2026년 01월 28일

안녕하세요, 아이엔마케팅 김채원입니다.

구글의 최신 모델 Gemini 3 Flash가 이미지를 단순히 보는 단계를 넘어, 스스로 돋보기를 들고 수사하는 단계로 진화했습니다. 현지 시각 1월 27일에 발표된 에이전틱 비전(Agentic Vision) 기술을 정리해 드리겠습니다.

눈이 아닌 뇌를 가진 AI, 이미지를 수사하다

출처 : 구글 공식 블로그

혹시 아주 작은 글씨가 적힌 영수증이나 복잡한 기계의 시리얼 번호를 찍어 AI에게 물어봤다가, AI가 엉뚱한 답을 내놓아 답답했던 적 없으신가요? 기존의 AI 모델들은 이미지를 단 한 번의 정적인 시선으로만 파악했기 때문에, 세밀한 디테일을 놓치면 추측에 의존할 수밖에 없었습니다.

하지만 Gemini 3 Flash의 에이전틱 비전은 다릅니다. 이 기술은 이미지 이해를 하나의 능동적인 조사 과정으로 탈바꿈시켰습니다. 마치 숙련된 수사관이 현장에서 증거를 확대하고 기록하듯, AI가 시각적 추론과 코드 실행을 결합해 스스로 계획을 세우고 이미지를 조작하며 답을 찾아냅니다.

생각하고, 행동하고, 관찰한다 ‘에이전틱’ 루프의 핵심

에이전틱 비전의 핵심은 인공지능이 이미지를 처리할 때 Think-Act-Observe(생각-행동-관찰)라는 세 단계의 루프를 반복한다는 점입니다.

이미지 출처 : 구글 공식 블로그
  • 생각(Think): 사용자의 질문과 초기 이미지를 분석해 어떻게 조사할지 다단계 계획을 세웁니다.
  • 행동(Act): 파이썬(Python) 코드를 생성하고 실행하여 이미지를 자르거나(Crop), 회전시키고, 특정 구역에 주석을 다는 등의 능동적인 조작을 수행합니다.
  • 관찰(Observe): 변형된 이미지를 다시 자신의 맥락에 추가하여, 더 정확한 정보를 바탕으로 최종 결론을 내립니다.

이러한 방식은 대부분의 비전 벤치마크에서 5~10%의 품질 향상을 가져왔습니다.

돋보기 검수부터 시각적 수학까지

에이전틱 비전은 단순한 기술 발표를 넘어 실제 비즈니스 현장에서 활용되고 있습니다.

1. 초정밀 도면 및 제품 검수

건축 도면 검증 플랫폼인 PlanCheckSolver.com은 이 기능을 도입해 정확도를 5% 높였습니다. Gemini 3 Flash는 고해상도 도면에서 지붕 가장자리나 건물 단면 같은 특정 부위를 스스로 잘라내어 반복적으로 검수하며 복잡한 건축 법규 준수 여부를 확인합니다.

2. 이미지 주석과 시각적 연습장

이제 AI는 본 것을 설명만 하지 않습니다. 제미나이 앱에서 손가락 개수를 셀 때, 에이전틱 비전은 파이썬 코드를 실행해 각 손가락에 번호표(Bounding Box)를 직접 그려가며 확인합니다. 이러한 ‘시각적 연습장’ 기능은 AI의 고질적인 문제였던 시각적 계산 오류를 줄여줍니다. 위 이미지에서도 기존 Gemini 3 Flash는 손가락이 6개라고 말한 반면, 에이전틱 비전은 10개를 모두 파악한 것을 알 수 있습니다.

3. 복잡한 표 분석과 차트 생성

빽빽한 데이터가 담긴 표 이미지를 주면, AI가 원시 데이터를 식별한 뒤 직접 코드를 짜서 깔끔한 막대그래프로 시각화해 줍니다. 확률적인 추측 대신 확인 가능한 코드 실행을 통해 정답을 도출합니다.

아이엔마케팅 데모 확인하기

구글 공식 데모 확인하기

이제 시작입니다

Agentic Vision은 이제 발걸음을 내딛었습니다. 구글이 계획하고 있는 계획은 하단과 같습니다.

  • 더 많은 암묵적 코드 기반 동작: 현재 이미지 회전이나 시각적 수학 기능은 명시적인 프롬프트가 필요하지만, 향후 업데이트에서 완전히 암묵적으로 작동하도록 개선할 예정입니다.
  • 더 많은 도구: 웹 검색 및 역이미지 검색 도구를 결합하여 AI의 세계 이해 능력을 더욱 강화할 계획입니다.
  • 더 많은 모델 지원: Flash 외에 다른 모델 크기로도 이 기능을 확장할 예정입니다.

Q&A

Q1. 에이전틱 비전 기능은 지금 바로 사용할 수 있나요?

네, 제미나이 API(Google AI Studio, Vertex AI)를 통해 개발자들은 즉시 이용할 수 있습니다. 일반 사용자의 경우 제미나이 앱의 모델 선택 드롭다운에서 ‘Thinking’ 모드를 선택하면 순차적으로 적용되는 기능을 경험할 수 있습니다. 자세한 내용은 개발자 문서를 확인해 주세요. (코드 실행이라고 나와있습니다.)

Q2. AI가 이미지를 조작할 때 원본 데이터가 손상되지는 않나요?

AI는 조사를 위해 이미지의 특정 부분을 크롭하거나 주석을 다는 ‘복사본’을 생성하여 자신의 컨텍스트 윈도우(문맥 창)에 추가하는 방식을 사용합니다. 원본 데이터를 보존하면서도 더 깊은 통찰을 얻는 방식입니다.

Q3. 어떤 분야에 활용할 수 있나요?

고해상도 이미지에서 세밀한 디테일을 파악해야 하는 분야(도면 검수, 제품 검사 등)나, 복잡한 표 데이터를 시각화해야 하는 분야에서 활용할 수 있습니다. 향후 구글 애즈나 유튜브 광고 소 분석에 활용될 가능성이 있습니다. 아이엔마케팅은 이러한 AI 기술들을 지속적으로 모니터링하고 있습니다. 여기에 더해 구글 애즈 디스플레이(GDN) 소재가 모바일 기기별로 최적의 가독성을 유지하는지 정밀 진단하는 등 마케팅 실무의 완성도를 높이는 데 핵심적으로 활용될 수 있습니다.

아이엔마케팅은 Google과 AI의 변화에 가장 빠르게 대응하는 구글 전문 광고 대행사입니다. 내 비즈니스에 맞는 구글 광고 전략이 필요하시다면 ‘아이엔마케팅 홈페이지‘, 혹은 AI 아이엔마케팅 사이트에 방문해주세요. 자세한 상담 및 제안서를 받아보시고 싶으신가요? 지금 아이엔마케팅 홈페이지에서 무료 제안서를 신청하시고, 내 비즈니스에 최적화된 맞춤 제안서를 받아보세요.

위로 스크롤