구글 광고 자료실
검색 로봇

robots.txt 효과적 활용

robots.txt 파일 – 검색엔진 크롤링 제어의 핵심
robot.txt 검색엔진이 사이트에 접근하고 크롤링할 수 있는 부분을 알려주어 검색엔진의 트래픽을 조절하는데 사용
robots.txt는 검색 로봇 배제 표준을 따르는 일반 텍스트 파일입니다. 파일명은 반드시 robots.txt
로 지정해야 하며, 사이트 루트 디렉토리에 위치해야 합니다. (ex http://www.inmarketing.kr/robots.txt
) 특정 페이지가 검색엔진 결과에 노출되지 않도록 설정하려면, 해당 페이지를 크롤링할 수 없도록 설정 가능합니다. 더 자세한 사항은 Google 검색센터에서 제공하는 Robots.txt 소개에서 접할 수 있습니다
Google 서치콘솔에서의 활용
- Google 서치콘솔은 robots.txt 파일을 테스트하고 특정 URL을 제어할 수 있는 기능을 제공합니다.
- 이를 통해 설정의 적절성을 확인하고 크롤링 오류를 방지할 수 있습니다.
하위 도메인에 대한 처리
- 하위 도메인에 있는 특정 페이지를 크롤링하지 않으려면 각 하위 도메인별로 별도의 robots.txt 파일을 생성해야 합니다.
콘텐츠를 검색결과에서 제외하는 추가 방법
- 페이지 내에
NOINDEX
태그를 추가해 검색결과 노출을 방지 - 비밀번호 보호 디렉토리에
.htaccess
사용 - Google 서치콘솔을 사용하여 이미 크롤링한 콘텐츠 제거
robots.txt 효과적 활용을 위한 권장사항
① robots.txt는 보안 도구가 아님
- robots.txt는 검색 엔진의 트래픽을 조절하기 위한 규약으로, 보안 목적으로 사용하지 않아야 함
- 악의적인 봇은 robots.txt 파일을 무시하고 비공개 페이지에 접근할 수 있으므로, 민감한 데이터를 보호하는 데 적합하지 않음
- 피해야 할 상황 사이트 전체를 검색 엔진에서 차단 / robots.txt 파일만으로 보안을 확보하려는 시도 (robots.txt 파일은 누구나 확인 가능함)
② 민감한 콘텐츠는 보다 안전한 방법 사용
- 민감한 콘텐츠가 포함된 페이지를 보호하려면, robots.txt 대신 암호화 또는 비밀번호 보호 디렉토리 (.htaccess)를 활용하는 것이 더 안전
- 호기심 많은 사용자가 robots.txt 파일에서 비공개 콘텐츠 URL을 추측할 가능성을 차단하기 위함
- 피해야 할 상황 민감한 페이지를 robots.txt만으로 차단하려는 시도 / 보안이 필요한 콘텐츠를 암호화 없이 노출
③ 구글 서치콘솔을 위한 무료 도구 사용
- Google 서치콘솔은 검색엔진이 사이트를 크롤링하는 과정을 분석하며, 검색결과에서 제외하고자 하는 URL을 효율적으로 관리할 수 있는 무료 도구 제공
- robots.txt 파일 설정 외에도, 검색 결과에서 제외할 콘텐츠를 Google 서치콘솔에서 관리하는 것이 바람직
- 피해야 할 상황 검색 결과 페이지와 유사한 페이지의 크롤링을 허용해 불필요한 콘텐츠가 색인됨 / 프로록시 서비스 등 결과물 생성된 URL들을 크롤링 허용
rel=nofollow 링크 속성 사용시 유의

nofollow 링크가 검색엔진에 의해 따라가지 않도록 설정하는 속성
링크의 신뢰도를 전달하지 않거나, 특정 페이지를 검색엔진이 따라가지 않게 하기 위해 사용함.
<a href="https://inmarketing.kr
" rel=nofollow>Example</a> // 일반적으로 사용하는 nofollow 태그 사용법
<meta name="robots" content=nofollow> // 모든 링크를 nofollow롤 설정하려면 로봇 메타 태그 활용, <head> 태그 내에 삽입 -> 권장 X
nofollow를 사용하는 주요 상황
댓글 스팸 방지 | – 블로그, 방명록, 포럼, 게시판 등에서 방문자가 남기는 댓글이나 링크는 스팸성 콘텐츠로 이어질 가능성이 높음. – 스팸 사이트에 링크를 허용하면 자신의 사이트 신뢰도에 부정적인 영향을 미칠 수 있음. – 자동으로 댓글에 rel="nofollow" 를 추가하도록 설정하거나, 수동으로 추가하여 관리 가능. |
인지도 전달 방지 | – 특정 사이트를 참조하고 싶지만 인지도(SEO 점수)를 전달하고 싶지 않은 경우 nofollow를 활용. – 예시: 스팸 사이트를 경고하는 블로그 글에서 해당 사이트 링크를 포함하되, 링크에 nofollow를 적용하여 검색엔진이 따라가지 않도록 설정. |