우리가 사는 세상을 모두 알기엔 인생은 너무 짧다.!!

사이트관리

robots.txt 사용 방법 총망라 및 파일

거북선인 2018. 11. 27. 23:49
반응형

robots.txt 사용방법


예제 로봇택스트 파일 : Robots.txt



robots.txt 위치

robots.txt를 적용할 웹사이트의 최상위 디렉토리에 적용하시면됩니다

1
ex) www.test.com/robots.txt


robots.txt 형식

1
2
3
User-agent: <= 검색봇 이름
Disallow: <= 접근 설정
Crawl-delay: 다음방문까지의 디레이(초)


모든 검색봇 차단

1
2
User-agent: *
Disallow: /

'*'(와일드카드)는 모든 로봇을 뜻하며, '/'슬래시는 모든 디렉토리를 뜻합니다



구글봇(Googlebot)만 허용하고 나머지는 모두 차단

1
2
3
4
5
User-agent: Googlebot
Disallow:
 
User-agent: *
Disallow: /



구글봇(Googlebot)과 다음봇(Daumoa)만 허용후 다른 봇은 모두 차단

1
2
3
4
5
6
7
8
User-agent: Googlebot
Disallow:
 
User-agent: Daumoa
Disallow:
 
User-agent: *
Disallow: /


모든 봇을 허용

1
2
User-agent: *
Disallow:



홈페이지의 디렉토리의 일부만 검색엔진에 노출

1
2
3
User-agent: *
Disallow: /conection/
Disallow: /my_conection/


홈페이지의 디렉토리의 일부반 검색엔진에 노출차단

1
2
User-agent: *
Disallow: /my_page/



특정 검색로봇만 허용하고 나머지 차단하기


User-agent: *
Disallow: /
User-agent: *
Allow: Googlebot


특정 폴더만 접근 금지

User-agent: *
Disallow: /폴더명/
검색로봇
네이버 Yetibot
다음 Daumoa
구글 Googlebot
야후 Yahoo! Slurp
마이크로소프트 Msnbot
빙 Bingbot

 

 

만약 모든 검색로봇 접근을 허용할 때에는

 

User-agent: *
Allow: /

 

이렇게 메모장에 적으신 후 robots.txt 라는 이름으로

텍스트 파일을 저장 하신 후 사이트 경로의 FTP에 업로드 하시면 됩니다.


아래의 표는 잘 알려진 사이트들의 검색봇 목록이다.
위에서 본 것과 같은 방법으로 검색봇의 이름을 적용하여 Robots.txt 파일을 

작성하면 된다.

검색엔진(검색 봇) 목록
사이트검색봇 이름
다음(Daum)daumoa
네이버(Naver)naverbot 또는 Cowbot


구글 (Google)Googlebot
구글 이미지( Google-Image)googlebot-image
구글 모바일(Googel-mobile)googlebot-mobile


엠에스엔(MSN)MSNBot
엠에스엔 이미지(MSN PicSearch)psbot


야후(Yahoo)Slurp
야후 이미지(Yahoo-Image)Yahoo-MMCrawler
야후 브로그(Yahoo-blog)yahoo-blogs/v3.9


알렉사(Alexa/Wayback)ia_archiver
바이두(Baidu)baiduspider


검색봇을 통해 https 페이지를 제외한 모든 http 페이지에 대한 수집을 허용하려면 다음 robots.txt 파일들을 각의 프로토콜에 사용해야 합니다.

http 프로토콜의 경우
(http://yourserver.co.kr/robots.txt):
User-agent: *
DIsallow:

https 프로토콜의 경우
(https://yourserver.co.kr/robots.txt):

User-agent: *
Disallow: /


그외 구글에서 알려주는 방법

https://support.google.com/webmasters/answer/6062596?hl=ko

반응형