Jiniya

WEB

robots.txt 설정 방법

robots.txt 파일을 사용하여 검색 엔진 및 웹 크롤러를 제어하는 방법


검색 엔진 및 웹 크롤러가 색인을 생성하게 할 사이트의 섹션과 무시해야하는 섹션을 지정할 수 있습니다. 이렇게하려면 robots.txt 파일에 지시문을 지정하고 문서 루트 디렉토리에 robots.txt 파일을 저장합니다.


   robots.txt 파일에서 지정하는 지시문은 요청 일뿐입니다. 대부분의 검색 엔진과 많은 웹 크롤러가 이러한 지침을 존중 하지만 그렇게 할 의무 는 없습니다 .따라서 색인을 생성하지 않으려는 콘텐츠를 숨기려면 robots.txt 파일에 의존해서는 안됩니다.
   

 

robots.txt.png


1. ROBOTS.TXT 지시어 사용하기


robots.txt 파일에 사용 된 지시어는 간단하고 이해하기 쉽습니다. 가장 일반적으로 사용되는 지시문은 User-agent , Disallow 및 Crawl-delay 입니다. 


ex 1) 모든 크롤러에게 모든 파일에 액세스하도록 지시

 

   User-agent: *Disallow :
   

이 예제는 사용자 에이전트 지시문 및 별표 와일드 카드로 지정된 모든 크롤러는 사이트의 모든 파일에 액세스 할 수 있습니다.



ex 2) 모든 크롤러에게 모든 파일을 무시하도록 지시

 

   User-agent: *Disallow : / 
   

이 예제는 모든 크롤러가 사이트의 모든 파일을 무시하도록 합니다.



ex 3)  모든 크롤러에게 특정 디렉토리를 무시하도록 지시

 

   User-agent: *Disallow : / scripts / 
   

이 예제는 모든 크롤러는 scripts 디렉토리 를 무시하도록 합니다 .



ex 4) 모든 크롤러에게 특정 파일을 무시하도록 지시

 

   User-agent: *Disallow : /documents/index.html 
   

이 예제는 모든 크롤러는 documents/index.html 디렉토리를 무시하도록 합니다 .



예제 5 : 크롤링 간격 제어

   User-agent: *Crawl-delay: 30 
   

이 예제는 모든 크롤러는 웹 서버에 대한 연속적인 요청 사이에서 최소 30 초 동안 대기하도록 지시합니다.



추가 정보

 

robots.txt 파일에 대한 자세한 내용은 http://www.robotstxt.org를 참조하십시오 .