2005년 06월 08일
거절을 모르는 검색엔진
많은 검색 엔진들이 로봇(web wanderer, crawler, spider)을 통해 링크를 수집하고 있습니다. 이러한 링크 수집을 원하지 않을 때는 robots.txt를 이용하여 수집 범위를 제한할 수 있는 검색 엔진 배제 규약(Robot Exclusion Protocol)이 있습니다. 국내 검색 엔진들이 사용자들에게 이 내용을 어떻게 소개하고 있는지 찾아 봤습니다.
네이버는 로봇 FAQ를 통해서 robots.txt를 소개하고 있습니다. http://www.robotstxt.org/wc/exclusion.html#meta를 링크함으로써 로봇의 검색에서 제외하는 법을 알리고 있죠. 그리고 robots.txt를 올려 놨는데도 검색이 되는 경우 고객센터에 연락하라는 안내까지 있습니다.
구글은 URL 삭제 안내 페이지에서 http://www.robotstxt.org/wc/norobots.html에 링크를 걸어 로봇 배제 규약을 소개할 뿐 아니라, 사용자의 웹사이트 URL제거, 각각의 페이지 삭제, 사이트 내용의 제거, 저장된 페이지의 제거, 오래된 링크의 제거, 구글 이미지 검색에서 이미지 삭제 등 여러가지 경우 robots.txt에 어떤 tag를 넣어야 하는지도 간단히 소개하고 있습니다.
다음은 웹검색에서 검색되지 않게 하는 방법은 ? 페이지에서 아주 간략하게 robots.txt에 대한 소개와 tag의 사용법을 설명하고 있습니다.
야후는 검색엔진 로봇 접근 금지라는 야후!검색센터 검색 도우미의 글에서,
파란은 Paran 고객센터의 통합검색에서 웹검색을 클릭하시면 볼 수 있는 도움말에서
MSN은 사용자의 웹 페이지가 MSN 검색 결과에 표시되는 경우라는 문서에서 robots.txt를 이용하여 검색을 피하는 방법을 설명하고 있습니다.
대부분의 잘 알려진 검색 엔진들이 검색에서 제외하는 방법을 소개한 반면 robots.txt는 언급 안하고 검색을 피하는 다른 방법을 알려주는 검색 엔진이 있[었]습니다.
"사이트 내 웹문서로의 로봇의 접근 및 검색엔진에서의 공개를 방지하시려면 해당 사이트나 웹문서를 방문하는 방문자에 대한 인증요구 등 보안장치를 하셔야 합니다." 다시 말하면 검색하지 않게 하려면 로그인 한 사람만 볼 수 있게 하라는 안내입니다. robots.txt에 대한 언급이 없는 것으로 보아 로봇 배제 규약은 무시하는 것 같습니다. 이 검색 엔진이 어디냐구요?
덧붙임1: Nate에서는 검색 제외/로봇에 의한 링크 제거에 대한 안내를 찾지 못했습니다. 제가 못 찾은 것일 수도 있고, 안내를 안하고 있는 것일 수도 있습니다. 안내를 알려주시면 글에 반영하겠습니다.
(한국 야후!, 파란, MSN에 대해 알려주신 homes님 감사합니다.)
덧붙임2: 왜 검색을 거부하냐구요? 누가 전화를 걸어도 전화를 받기는 하지만 전화번호부에 이름을 올리기 싫어하는 사람도 있고, 회원제 음식점은 아니지만 TV 맛집 소개에 나오길 거부하는 음식점도 있습니다. 검색을 원하고 말고는 홈페이지 주인 마음 아니겠습니까? 검색을 원하지 않는 이유가 "그냥~"이라도 주인이 싫으면 검색 안되게 하는 것이 당연! 참고로 danew님의 덧글에 의하면 저작권자는 검색에 의한 재전송을 거부할 권한이 있다고 합니다.

네이버는 로봇 FAQ를 통해서 robots.txt를 소개하고 있습니다. http://www.robotstxt.org/wc/exclusion.html#meta를 링크함으로써 로봇의 검색에서 제외하는 법을 알리고 있죠. 그리고 robots.txt를 올려 놨는데도 검색이 되는 경우 고객센터에 연락하라는 안내까지 있습니다.
구글은 URL 삭제 안내 페이지에서 http://www.robotstxt.org/wc/norobots.html에 링크를 걸어 로봇 배제 규약을 소개할 뿐 아니라, 사용자의 웹사이트 URL제거, 각각의 페이지 삭제, 사이트 내용의 제거, 저장된 페이지의 제거, 오래된 링크의 제거, 구글 이미지 검색에서 이미지 삭제 등 여러가지 경우 robots.txt에 어떤 tag를 넣어야 하는지도 간단히 소개하고 있습니다.
다음은 웹검색에서 검색되지 않게 하는 방법은 ? 페이지에서 아주 간략하게 robots.txt에 대한 소개와 tag의 사용법을 설명하고 있습니다.
야후는 검색엔진 로봇 접근 금지라는 야후!검색센터 검색 도우미의 글에서,
파란은 Paran 고객센터의 통합검색에서 웹검색을 클릭하시면 볼 수 있는 도움말에서
MSN은 사용자의 웹 페이지가 MSN 검색 결과에 표시되는 경우라는 문서에서 robots.txt를 이용하여 검색을 피하는 방법을 설명하고 있습니다.
대부분의 잘 알려진 검색 엔진들이 검색에서 제외하는 방법을 소개한 반면 robots.txt는 언급 안하고 검색을 피하는 다른 방법을 알려주는 검색 엔진이 있[었]습니다.
"사이트 내 웹문서로의 로봇의 접근 및 검색엔진에서의 공개를 방지하시려면 해당 사이트나 웹문서를 방문하는 방문자에 대한 인증요구 등 보안장치를 하셔야 합니다." 다시 말하면 검색하지 않게 하려면 로그인 한 사람만 볼 수 있게 하라는 안내입니다. robots.txt에 대한 언급이 없는 것으로 보아 로봇 배제 규약은 무시하는 것 같습니다. 이 검색 엔진이 어디냐구요?
덧붙임1: Nate에서는 검색 제외/로봇에 의한 링크 제거에 대한 안내를 찾지 못했습니다. 제가 못 찾은 것일 수도 있고, 안내를 안하고 있는 것일 수도 있습니다. 안내를 알려주시면 글에 반영하겠습니다.
(한국 야후!, 파란, MSN에 대해 알려주신 homes님 감사합니다.)
덧붙임2: 왜 검색을 거부하냐구요? 누가 전화를 걸어도 전화를 받기는 하지만 전화번호부에 이름을 올리기 싫어하는 사람도 있고, 회원제 음식점은 아니지만 TV 맛집 소개에 나오길 거부하는 음식점도 있습니다. 검색을 원하고 말고는 홈페이지 주인 마음 아니겠습니까? 검색을 원하지 않는 이유가 "그냥~"이라도 주인이 싫으면 검색 안되게 하는 것이 당연! 참고로 danew님의 덧글에 의하면 저작권자는 검색에 의한 재전송을 거부할 권한이 있다고 합니다.

