본문 바로가기
Program/Language

robots.txt 크롤링 차단 방법

by 소중하루 2025. 1. 3.
반응형

robots.txt 크롤링 차단 방법
robots.txt 크롤링 차단 방법

 

 

Robots.txt란 무엇인가?

웹사이트의 Robots.txt 파일은 검색 엔진 크롤러(봇)에게 웹사이트의 크롤링 규칙을 알려주는 텍스트 파일입니다. 이 파일은 웹사이트의 루트 디렉토리에 위치하며, 사이트 소유자가 크롤러가 어떤 페이지나 디렉토리를 크롤링할 수 있는지 또는 없는지를 지정할 수 있습니다. 이번 글에서는 Robots.txt 파일의 기본 구조와 크롤링 차단 방법을 상세히 설명하겠습니다.


1. Robots.txt의 기본 구조

1.1 Robots.txt 파일의 위치

Robots.txt는 웹사이트의 루트 디렉토리에 있어야 하며, URL은 다음과 같습니다.

https://www.example.com/robots.txt

1.2 기본 구성

Robots.txt 파일은 두 가지 주요 지시어로 구성됩니다.

  • User-agent: 크롤러(봇)의 이름을 지정.
  • Disallow: 크롤링을 금지할 경로를 지정.

예제:

User-agent: *
Disallow: /private/

위 코드는 모든 크롤러에게 /private/ 디렉토리를 크롤링하지 말라고 지시합니다.


2. 크롤링 차단 방법

2.1 특정 페이지 차단

특정 페이지를 차단하려면, 해당 경로를 Disallow에 지정합니다.

User-agent: *
Disallow: /private-page.html
  • 모든 크롤러가 https://www.example.com/private-page.html을 크롤링하지 못하도록 설정.

2.2 특정 디렉토리 차단

전체 디렉토리를 차단하려면, 디렉토리 이름 뒤에 슬래시(/)를 추가합니다.

User-agent: *
Disallow: /admin/
  • 모든 크롤러가 /admin/ 디렉토리 내부의 모든 파일을 크롤링하지 못하도록 설정.

2.3 특정 크롤러만 차단

특정 크롤러(예: Googlebot)를 차단하려면 User-agent에 해당 크롤러의 이름을 지정합니다.

User-agent: Googlebot
Disallow: /
  • 구글 크롤러(Googlebot)가 전체 웹사이트를 크롤링하지 못하도록 설정.

2.4 특정 파일 형식 차단

특정 파일 형식(예: .jpg, .pdf)을 차단하려면 다음과 같이 작성합니다.

User-agent: *
Disallow: /*.jpg$
  • 모든 크롤러가 .jpg 파일을 크롤링하지 못하도록 설정.

2.5 모든 크롤러 차단

웹사이트 전체를 모든 크롤러로부터 차단하려면 / 경로를 지정합니다.

User-agent: *
Disallow: /

3. Robots.txt 설정 시 주의사항

3.1 Robots.txt는 지침일 뿐

Robots.txt 파일은 크롤러에게 강제적인 규칙이 아닙니다. 크롤러가 이를 무시할 수도 있으므로 민감한 데이터는 서버에서 직접 보호해야 합니다.

3.2 파일 접근 확인

Robots.txt 설정 후, 다음 URL을 통해 파일이 제대로 배치되었는지 확인하세요.

https://www.example.com/robots.txt

3.3 잘못된 설정 방지

Robots.txt의 잘못된 설정은 검색 엔진에서 중요한 페이지가 제외되는 결과를 초래할 수 있습니다. 예를 들어, 다음 설정은 전체 웹사이트의 검색 노출을 차단합니다.

User-agent: *
Disallow: /

3.4 실수 방지 팁

  • Test Tools 사용: 구글의 Robots.txt Tester를 활용하여 설정을 확인하세요.
  • 분리된 테스트 환경: 실수로 중요한 페이지가 차단되지 않도록 테스트 환경에서 먼저 설정을 점검하세요.

4. Robots.txt 설정 예제

4.1 크롤링 허용 및 특정 디렉토리 차단

User-agent: *
Disallow: /temp/
Allow: /
  • /temp/ 디렉토리는 크롤링 금지, 나머지 페이지는 허용.

4.2 검색 엔진 봇별 규칙 설정

User-agent: Googlebot
Disallow: /no-google/

User-agent: Bingbot
Disallow: /no-bing/
  • Googlebot은 /no-google/ 디렉토리 접근 불가, Bingbot은 /no-bing/ 디렉토리 접근 불가.

Robots.txt를 활용한 크롤링 제어

Robots.txt는 웹사이트의 크롤링 규칙을 설정하는 간단하면서도 강력한 도구입니다. 이를 활용하면 검색 엔진 크롤러의 활동을 효과적으로 제어하고, 민감한 데이터나 불필요한 페이지가 검색 엔진에 노출되는 것을 방지할 수 있습니다.

하지만 Robots.txt는 지침일 뿐 크롤러가 이를 반드시 따르는 것은 아니므로, 중요한 데이터는 별도의 보안 조치를 병행하는 것이 중요합니다.


FAQ : robots.txt 크롤링 차단 방법 자주 묻는 질문

1. Robots.txt는 SEO에 어떤 영향을 미치나요?

Robots.txt 설정이 잘못되면 중요한 페이지가 검색 엔진에 노출되지 않아 SEO에 부정적인 영향을 줄 수 있습니다. 따라서 설정 시 주의가 필요합니다.

2. Robots.txt 없이도 웹사이트가 동작하나요?

네, Robots.txt 파일이 없어도 웹사이트는 동작합니다. 하지만 크롤러가 모든 페이지를 무제한으로 탐색할 수 있으므로, 불필요한 크롤링을 방지하려면 설정하는 것이 좋습니다.

3. Robots.txt 파일은 비밀번호로 보호된 페이지도 차단하나요?

아니요, Robots.txt는 단순히 크롤러에게 크롤링 지침을 제공하는 파일일 뿐, 비밀번호 보호와 같은 보안 기능을 제공하지 않습니다.

반응형

댓글