구글이 공식 블로그를 통해 구글봇(Googlebot)의 작동 구조와 데이터 처리 방식에 대해 설명했습니다.
구글에 따르면 구글봇은 단일 크롤러가 아니라, 여러 서비스가 공유하는 크롤링 인프라 위에서 동작하는 다양한 크롤러 집합입니다. 서버 로그에 표시되는 Googlebot은 주로 검색용 크롤러를 의미하며, 이 외에도 쇼핑, 광고 등 각 서비스는 동일한 인프라를 기반으로 별도의 클라이언트 형태로 요청을 수행합니다.
이번 설명에서는 페이지 처리 과정에서 적용되는 데이터 범위 기준도 함께 언급됐습니다. 일반적인 HTML 문서는 일정 크기 범위 내에서 처리되며, 이를 초과하는 데이터는 인덱싱 과정에서 반영되지 않을 수 있습니다. 이와 관련해 구글은 약 2MB 수준의 처리 기준이 사용될 수 있음을 예시로 제시했으며, 이는 크롤러 유형이나 클라이언트 설정에 따라 달라질 수 있습니다. PDF 파일의 경우 더 큰 용량까지 처리되며, 기타 크롤링 인프라도 기본 설정에 따라 다른 기준이 적용됩니다.
구글은 이 과정에서 크롤링(fetch)과 인덱싱(process)이 구분된다고 설명했습니다. 더 많은 데이터를 가져올 수는 있지만, 실제 검색에 활용되는 콘텐츠는 일정 범위 내에서 처리된다는 의미입니다.
수집된 콘텐츠는 이후 웹 렌더링 서비스(WRS)를 통해 JavaScript와 CSS를 반영하는 과정을 거칩니다. 이 과정은 페이지를 재구성해 이해하는 방식으로 이루어지며, 리소스 처리 방식은 상황에 따라 달라질 수 있습니다.
구글은 이번 내용이 새로운 정책이나 제한을 도입한 것이 아니라, 기존 크롤링 및 처리 방식에 대한 기술적 설명을 보다 명확히 정리한 것이라고 밝혔습니다.




