2005년 06월 08일
거절을 모르는 검색엔진
많은 검색 엔진들이 로봇(web wanderer, crawler, spider)을 통해 링크를 수집하고 있습니다. 이러한 링크 수집을 원하지 않을 때는 robots.txt를 이용하여 수집 범위를 제한할 수 있는 검색 엔진 배제 규약(Robot Exclusion Protocol)이 있습니다. 국내 검색 엔진들이 사용자들에게 이 내용을 어떻게 소개하고 있는지 찾아 봤습니다.
네이버는 로봇 FAQ를 통해서 robots.txt를 소개하고 있습니다. http://www.robotstxt.org/wc/exclusion.html#meta를 링크함으로써 로봇의 검색에서 제외하는 법을 알리고 있죠. 그리고 robots.txt를 올려 놨는데도 검색이 되는 경우 고객센터에 연락하라는 안내까지 있습니다.
구글은 URL 삭제 안내 페이지에서 http://www.robotstxt.org/wc/norobots.html에 링크를 걸어 로봇 배제 규약을 소개할 뿐 아니라, 사용자의 웹사이트 URL제거, 각각의 페이지 삭제, 사이트 내용의 제거, 저장된 페이지의 제거, 오래된 링크의 제거, 구글 이미지 검색에서 이미지 삭제 등 여러가지 경우 robots.txt에 어떤 tag를 넣어야 하는지도 간단히 소개하고 있습니다.
다음은 웹검색에서 검색되지 않게 하는 방법은 ? 페이지에서 아주 간략하게 robots.txt에 대한 소개와 tag의 사용법을 설명하고 있습니다.
야후는 검색엔진 로봇 접근 금지라는 야후!검색센터 검색 도우미의 글에서,
파란은 Paran 고객센터의 통합검색에서 웹검색을 클릭하시면 볼 수 있는 도움말에서
MSN은 사용자의 웹 페이지가 MSN 검색 결과에 표시되는 경우라는 문서에서 robots.txt를 이용하여 검색을 피하는 방법을 설명하고 있습니다.
대부분의 잘 알려진 검색 엔진들이 검색에서 제외하는 방법을 소개한 반면 robots.txt는 언급 안하고 검색을 피하는 다른 방법을 알려주는 검색 엔진이 있[었]습니다.
"사이트 내 웹문서로의 로봇의 접근 및 검색엔진에서의 공개를 방지하시려면 해당 사이트나 웹문서를 방문하는 방문자에 대한 인증요구 등 보안장치를 하셔야 합니다." 다시 말하면 검색하지 않게 하려면 로그인 한 사람만 볼 수 있게 하라는 안내입니다. robots.txt에 대한 언급이 없는 것으로 보아 로봇 배제 규약은 무시하는 것 같습니다. 이 검색 엔진이 어디냐구요?
덧붙임1: Nate에서는 검색 제외/로봇에 의한 링크 제거에 대한 안내를 찾지 못했습니다. 제가 못 찾은 것일 수도 있고, 안내를 안하고 있는 것일 수도 있습니다. 안내를 알려주시면 글에 반영하겠습니다.
(한국 야후!, 파란, MSN에 대해 알려주신 homes님 감사합니다.)
덧붙임2: 왜 검색을 거부하냐구요? 누가 전화를 걸어도 전화를 받기는 하지만 전화번호부에 이름을 올리기 싫어하는 사람도 있고, 회원제 음식점은 아니지만 TV 맛집 소개에 나오길 거부하는 음식점도 있습니다. 검색을 원하고 말고는 홈페이지 주인 마음 아니겠습니까? 검색을 원하지 않는 이유가 "그냥~"이라도 주인이 싫으면 검색 안되게 하는 것이 당연! 참고로 danew님의 덧글에 의하면 저작권자는 검색에 의한 재전송을 거부할 권한이 있다고 합니다.
네이버는 로봇 FAQ를 통해서 robots.txt를 소개하고 있습니다. http://www.robotstxt.org/wc/exclusion.html#meta를 링크함으로써 로봇의 검색에서 제외하는 법을 알리고 있죠. 그리고 robots.txt를 올려 놨는데도 검색이 되는 경우 고객센터에 연락하라는 안내까지 있습니다.
구글은 URL 삭제 안내 페이지에서 http://www.robotstxt.org/wc/norobots.html에 링크를 걸어 로봇 배제 규약을 소개할 뿐 아니라, 사용자의 웹사이트 URL제거, 각각의 페이지 삭제, 사이트 내용의 제거, 저장된 페이지의 제거, 오래된 링크의 제거, 구글 이미지 검색에서 이미지 삭제 등 여러가지 경우 robots.txt에 어떤 tag를 넣어야 하는지도 간단히 소개하고 있습니다.
다음은 웹검색에서 검색되지 않게 하는 방법은 ? 페이지에서 아주 간략하게 robots.txt에 대한 소개와 tag의 사용법을 설명하고 있습니다.
야후는 검색엔진 로봇 접근 금지라는 야후!검색센터 검색 도우미의 글에서,
파란은 Paran 고객센터의 통합검색에서 웹검색을 클릭하시면 볼 수 있는 도움말에서
MSN은 사용자의 웹 페이지가 MSN 검색 결과에 표시되는 경우라는 문서에서 robots.txt를 이용하여 검색을 피하는 방법을 설명하고 있습니다.
대부분의 잘 알려진 검색 엔진들이 검색에서 제외하는 방법을 소개한 반면 robots.txt는 언급 안하고 검색을 피하는 다른 방법을 알려주는 검색 엔진이 있[었]습니다.
"사이트 내 웹문서로의 로봇의 접근 및 검색엔진에서의 공개를 방지하시려면 해당 사이트나 웹문서를 방문하는 방문자에 대한 인증요구 등 보안장치를 하셔야 합니다." 다시 말하면 검색하지 않게 하려면 로그인 한 사람만 볼 수 있게 하라는 안내입니다. robots.txt에 대한 언급이 없는 것으로 보아 로봇 배제 규약은 무시하는 것 같습니다. 이 검색 엔진이 어디냐구요?
덧붙임1: Nate에서는 검색 제외/로봇에 의한 링크 제거에 대한 안내를 찾지 못했습니다. 제가 못 찾은 것일 수도 있고, 안내를 안하고 있는 것일 수도 있습니다. 안내를 알려주시면 글에 반영하겠습니다.
(한국 야후!, 파란, MSN에 대해 알려주신 homes님 감사합니다.)
덧붙임2: 왜 검색을 거부하냐구요? 누가 전화를 걸어도 전화를 받기는 하지만 전화번호부에 이름을 올리기 싫어하는 사람도 있고, 회원제 음식점은 아니지만 TV 맛집 소개에 나오길 거부하는 음식점도 있습니다. 검색을 원하고 말고는 홈페이지 주인 마음 아니겠습니까? 검색을 원하지 않는 이유가 "그냥~"이라도 주인이 싫으면 검색 안되게 하는 것이 당연! 참고로 danew님의 덧글에 의하면 저작권자는 검색에 의한 재전송을 거부할 권한이 있다고 합니다.
# by | 2005/06/08 09:37 | 차와 케잌과 수다 | 트랙백(5) | 덧글(14)





☞ 내 이글루에 이 글과 관련된 글 쓰기 (트랙백 보내기) [도움말]
제목 : robots.txt 누가누가 잘지키나
‘A-Typical의 세번째 서랍’ 블로그에서 엠파스의 ‘열린검색’ 논란과 관련된 “거절을 모르는 검색엔진“이라는 포스트를 읽었다. 국내 포털 검색사이트들 대부분이 robo......more
제목 : 다시 엠파스에 대해
며칠 전에 엠파스 열린검색이 대한 글을 쓴 적이 있습니다만, 거기에 몇 가지 덧붙여보려고 합니다. [1] 제가 엠파스 열린검색에 대해 매우 호의적인 시각을 가지고 있다는 것은 아시리라 생각합니다. 하지만 분명 이번 일을 떠나서 엠파스에 대해서는 몇가지 지적할 점이 없지 않습니다. [2] 먼저 엠파스의 검색로봇 문제입니다. 엠파스가 과거 가장 많이 욕을 먹었던 부분이 바로 이 검색봇(spider) 문제인데요. 표준을 전혀 지키지 않는 다는 점에서 말이 많았던 것으로 기억합니다. 문제는 이것이 지금도 고쳐지지 않은 ......more
제목 : 검색 엔진을 피하는 방법
검색 엔진에 자신의 블로그가 걸려들지 않게 하고 싶은 분들도 많을텐데요, A-Typical님이 자세히 정리해주셨더군요. 감사한 마음으로 트랙백 걸겠습니다. 거절을 모르는 검색엔진 그런데, '엠파스'쪽에 문제가 있어보이는군요. 혹시 이번에도 '친절한' 엠파스씨가 답변을 해주시려나?...more
제목 : 검색엔진에서 보고 싶지 않네...
얼마 전 친구가 해준 얘기. 자신에게 이메일이 왔는데 자신의 블로그를 보고 보낸 이메일었다는 말에 깜짝 놀라 검색엔진에 관련 단어를 쳐보니 자신의 블로그 내용이 주르륵 뜬다는 얘기를 들었다. 난 블로그의 기능이 어느 누구나 다 볼 수 있다는 게 장점이 아니겠느냐는 말을 했던 것 같은데 생각해보니 말이 안된다. 검색엔진에 등록되고 검색되는 게 기본이라 할지라도 자신이 원하지 않는 글내용이라면 공개시키지 않게 할 권리가 있을테니까. 인터넷은 공개적인 장소임과 동시에 개인적인 공간으로 활용될 수도 있는 것 아니겠나. 뭐, 어쨌든........more
제목 : 엠파스 블로그 열린검색 7월 6일 오픈 예정
엠파스 블로그 열린검색은 7월 6일 오픈합니다. 블로그 열린검색은 인터넷에 개설된 블로그의 공개된 글을 모두 모아서 한꺼번에 검색해 드립니다. 비공개 글은 검색하지 않으며, 자세한 사항은 아래와 같습니다. .....more
http://kr.blog.yahoo.com/ysearch_helper/540392.html?p=1&pm=l
파란은 구글 엔진이고 고객센터에서 웹문서로 검색하면 나옵니다.
한국MSN은 검색 결과에 나오는 도움말에서 찾아들어가야 나오는데
http://help.msn.com/!data/ko_kr/data/msnsearch_07_04.its51/$content$/SEARCH_TROU_IDontWantMyWebPageToAppearInSearchResults.htm
에 있습니다.
제일 웃기는 것은.. blog.naver.com/robots.txt 를 한 번 보세요. 분명 모든 로봇이 수집하지 않도록 설정되어 있습니다.
그리고 요걸 보세요..
http://websearch.naver.com/search.naver?where=webkr&qt=ba&query=%B3%D7%C0%CC%B9%F6&lang=&rr=on&r=blog.naver.com&f=all&x=0&y=0
네이버 블로그들은 네이버 웹검색에서 검색되도 괜찮다는 말인지.. 포털들은 하는 짓이 모두 다 똑같다.
특히, 구글에서도 네이버 블로그가 robots.txt 가 설정되어 있는데 왜 노출되는지를 의문시하시는 분들이 있습니다. 이에 대해서 사람들의 분위기는 네이버측의 서버 작업 실수로 한동안 열려있었던게 아닌가 하는 쪽으로 가고 있는 분위기고요. 다른 서비스에서도 같은 이유로 노출되고 있었을테니 시간이 지나면 해결이 되겠지요.
사실 포털들이 하는 짓이 똑같다고 단순히 매도하기에는, 역으로 보면 작은 포탈들 까지 다 지킬건 지키는데 굉장히 특이한 포탈이 딱 하나 존재하는 것뿐 아닐까요?
그리고 이전에 검색결과에 노출되고 있었던 수집거부 대상 DB에 대해서도 삭제조치 완료하였습니다.
단, 웹사이트 운영자와 정보의 저작권자가 동일한 경우에 한해서만 robots.txt의 거부를 인정하고 조치를 취하고 있습니다.
로봇정책은 엠파스 고객센터(http://help.empas.com/view_faq.html?csn=4&dsn=19&fsn=742)에서 구체적인 내용을 확인하실 수 있습니다.
살펴보시고 아직 반영되지 못한 부분이 발견되면 언제든지 신고해 주세요.
바로 조치해 드리겠습니다.
높은 관심에 다시한번 감사합니다.
아래 주소에서 블로그 주소, 필명, 아이디로 검색해서 확인하시면 됩니다. 관련내용 트랙백으로도 걸어 두겠습니다.
http://search.empas.com/ok/blog.html
좋은 정보 감사합니다. 꼭 알고 싶었었답니다. ^^
싹 깨끗하게 물리치고 싶은데.. ㅡㅡ;;;