robots.txt 파일을 사용하여 검색 엔진 및 웹 크롤러를 제어하는 방법
검색 엔진 및 웹 크롤러가 색인을 생성하게 할 사이트의 섹션과 무시해야하는 섹션을 지정할 수 있습니다. 이렇게하려면 robots.txt 파일에 지시문을 지정하고 문서 루트 디렉토리에 robots.txt 파일을 저장합니다.
robots.txt 파일에서 지정하는 지시문은 요청 일뿐입니다. 대부분의 검색 엔진과 많은 웹 크롤러가 이러한 지침을 존중 하지만 그렇게 할 의무 는 없습니다 .따라서 색인을 생성하지 않으려는 콘텐츠를 숨기려면 robots.txt 파일에 의존해서는 안됩니다.
1. ROBOTS.TXT 지시어 사용하기
robots.txt 파일에 사용 된 지시어는 간단하고 이해하기 쉽습니다. 가장 일반적으로 사용되는 지시문은 User-agent , Disallow 및 Crawl-delay 입니다.
ex 1) 모든 크롤러에게 모든 파일에 액세스하도록 지시
User-agent: *Disallow :
이 예제는 사용자 에이전트 지시문 및 별표 와일드 카드로 지정된 모든 크롤러는 사이트의 모든 파일에 액세스 할 수 있습니다.
ex 2) 모든 크롤러에게 모든 파일을 무시하도록 지시
User-agent: *Disallow : /
이 예제는 모든 크롤러가 사이트의 모든 파일을 무시하도록 합니다.
ex 3) 모든 크롤러에게 특정 디렉토리를 무시하도록 지시
User-agent: *Disallow : / scripts /
이 예제는 모든 크롤러는 scripts 디렉토리 를 무시하도록 합니다 .
ex 4) 모든 크롤러에게 특정 파일을 무시하도록 지시
User-agent: *Disallow : /documents/index.html
이 예제는 모든 크롤러는 documents/index.html 디렉토리를 무시하도록 합니다 .
예제 5 : 크롤링 간격 제어
User-agent: *Crawl-delay: 30
이 예제는 모든 크롤러는 웹 서버에 대한 연속적인 요청 사이에서 최소 30 초 동안 대기하도록 지시합니다.
추가 정보
robots.txt 파일에 대한 자세한 내용은 http://www.robotstxt.org를 참조하십시오 .