거절을 모르는 검색엔진

많은 검색 엔진들이 로봇(web wanderer, crawler, spider)을 통해 링크를 수집하고 있습니다. 이러한 링크 수집을 원하지 않을 때는 robots.txt를 이용하여 수집 범위를 제한할 수 있는 검색 엔진 배제 규약(Robot Exclusion Protocol)이 있습니다. 국내 검색 엔진들이 사용자들에게 이 내용을 어떻게 소개하고 있는지 찾아 봤습니다.

네이버로봇 FAQ를 통해서 robots.txt를 소개하고 있습니다. http://www.robotstxt.org/wc/exclusion.html#meta를 링크함으로써 로봇의 검색에서 제외하는 법을 알리고 있죠. 그리고 robots.txt를 올려 놨는데도 검색이 되는 경우 고객센터에 연락하라는 안내까지 있습니다.

구글URL 삭제 안내 페이지에서 http://www.robotstxt.org/wc/norobots.html에 링크를 걸어 로봇 배제 규약을 소개할 뿐 아니라, 사용자의 웹사이트 URL제거, 각각의 페이지 삭제, 사이트 내용의 제거, 저장된 페이지의 제거, 오래된 링크의 제거, 구글 이미지 검색에서 이미지 삭제 등 여러가지 경우 robots.txt에 어떤 tag를 넣어야 하는지도 간단히 소개하고 있습니다.

다음웹검색에서 검색되지 않게 하는 방법은 ? 페이지에서 아주 간략하게 robots.txt에 대한 소개와 tag의 사용법을 설명하고 있습니다.

야후검색엔진 로봇 접근 금지라는 야후!검색센터 검색 도우미의 글에서,
파란Paran 고객센터의 통합검색에서 웹검색을 클릭하시면 볼 수 있는 도움말에서
MSN사용자의 웹 페이지가 MSN 검색 결과에 표시되는 경우라는 문서에서 robots.txt를 이용하여 검색을 피하는 방법을 설명하고 있습니다.

대부분의 잘 알려진 검색 엔진들이 검색에서 제외하는 방법을 소개한 반면 robots.txt는 언급 안하고 검색을 피하는 다른 방법을 알려주는 검색 엔진이 있[었]습니다.
"사이트 내 웹문서로의 로봇의 접근 및 검색엔진에서의 공개를 방지하시려면 해당 사이트나 웹문서를 방문하는 방문자에 대한 인증요구 등 보안장치를 하셔야 합니다." 다시 말하면 검색하지 않게 하려면 로그인 한 사람만 볼 수 있게 하라는 안내입니다. robots.txt에 대한 언급이 없는 것으로 보아 로봇 배제 규약은 무시하는 것 같습니다. 이 검색 엔진이 어디냐구요?


엠파스사이트(디렉토리) 검색결과와 웹문서 검색결과의 차이가 뭔가요?를 확인해 보시죠.

검색 엔진에서 링크 걸 때마다 허락을 받으라고 하기는 현실적으로 어려우니 거부 안하면 허락으로 생각하게 하는 것만으로도 검색 엔진 쪽에서 감지덕지 해야 하는 거 아니겠습니까? 그러니 싫다고 의사 표시를 하면 검색 엔진 쪽에서 적극 반영해야 하는 게 정상일 것 같습니다만.. 여러분 생각은 어떻습니까?

검색되기 싫으면 로그인한 사람만 볼 수 있도록 하라는 말은, 전화번호부에 이름 올리기 싫으면 ARS 설치해서 주민등록번호나 고객번호 입력 받으라고 하는 것처럼 보이네요.


2005년 6월 23일부로 엠파스도 원 저작권자가 robots.txt로 수집 거부 의사를 밝힌 경우 검색하지 않도록 조치했다고 합니다. 이에 대한 로봇정책은 엠파스 고객센터에서 보실 수 있다고 합니다.








덧붙임1: Nate에서는 검색 제외/로봇에 의한 링크 제거에 대한 안내를 찾지 못했습니다. 제가 못 찾은 것일 수도 있고, 안내를 안하고 있는 것일 수도 있습니다. 안내를 알려주시면 글에 반영하겠습니다.
(한국 야후!, 파란, MSN에 대해 알려주신 homes님 감사합니다.)

덧붙임2: 왜 검색을 거부하냐구요? 누가 전화를 걸어도 전화를 받기는 하지만 전화번호부에 이름을 올리기 싫어하는 사람도 있고, 회원제 음식점은 아니지만 TV 맛집 소개에 나오길 거부하는 음식점도 있습니다. 검색을 원하고 말고는 홈페이지 주인 마음 아니겠습니까? 검색을 원하지 않는 이유가 "그냥~"이라도 주인이 싫으면 검색 안되게 하는 것이 당연! 참고로 danew님의 덧글에 의하면 저작권자는 검색에 의한 재전송을 거부할 권한이 있다고 합니다.

by A-Typical | 2005/06/08 09:37 | 차와 케잌과 수다 | 트랙백(5) | 덧글(14)

트랙백 주소 : http://atypical.egloos.com/tb/1409022
☞ 내 이글루에 이 글과 관련된 글 쓰기 (트랙백 보내기) [도움말]
Tracked from kirheis weBlog at 2005/06/11 23:35

제목 : robots.txt 누가누가 잘지키나
‘A-Typical의 세번째 서랍’ 블로그에서 엠파스의 ‘열린검색’ 논란과 관련된 “거절을 모르는 검색엔진“이라는 포스트를 읽었다. 국내 포털 검색사이트들 대부분이 robo......more

Tracked from The Blog in .. at 2005/06/14 10:19

제목 : 다시 엠파스에 대해
며칠 전에 엠파스 열린검색이 대한 글을 쓴 적이 있습니다만, 거기에 몇 가지 덧붙여보려고 합니다. [1] 제가 엠파스 열린검색에 대해 매우 호의적인 시각을 가지고 있다는 것은 아시리라 생각합니다. 하지만 분명 이번 일을 떠나서 엠파스에 대해서는 몇가지 지적할 점이 없지 않습니다. [2] 먼저 엠파스의 검색로봇 문제입니다. 엠파스가 과거 가장 많이 욕을 먹었던 부분이 바로 이 검색봇(spider) 문제인데요. 표준을 전혀 지키지 않는 다는 점에서 말이 많았던 것으로 기억합니다. 문제는 이것이 지금도 고쳐지지 않은 ......more

Tracked from 늘 갈림길, 한 걸음 더 at 2005/06/23 14:19

제목 : 검색 엔진을 피하는 방법
검색 엔진에 자신의 블로그가 걸려들지 않게 하고 싶은 분들도 많을텐데요, A-Typical님이 자세히 정리해주셨더군요. 감사한 마음으로 트랙백 걸겠습니다. 거절을 모르는 검색엔진 그런데, '엠파스'쪽에 문제가 있어보이는군요. 혹시 이번에도 '친절한' 엠파스씨가 답변을 해주시려나?...more

Tracked from 행.복.한.자.유.인. at 2005/06/24 04:11

제목 : 검색엔진에서 보고 싶지 않네...
얼마 전 친구가 해준 얘기. 자신에게 이메일이 왔는데 자신의 블로그를 보고 보낸 이메일었다는 말에 깜짝 놀라 검색엔진에 관련 단어를 쳐보니 자신의 블로그 내용이 주르륵 뜬다는 얘기를 들었다. 난 블로그의 기능이 어느 누구나 다 볼 수 있다는 게 장점이 아니겠느냐는 말을 했던 것 같은데 생각해보니 말이 안된다. 검색엔진에 등록되고 검색되는 게 기본이라 할지라도 자신이 원하지 않는 글내용이라면 공개시키지 않게 할 권리가 있을테니까. 인터넷은 공개적인 장소임과 동시에 개인적인 공간으로 활용될 수도 있는 것 아니겠나. 뭐, 어쨌든........more

Tracked from 엠파스 검색 블로그 at 2005/07/02 04:57

제목 : 엠파스 블로그 열린검색 7월 6일 오픈 예정
엠파스 블로그 열린검색은 7월 6일 오픈합니다. 블로그 열린검색은 인터넷에 개설된 블로그의 공개된 글을 모두 모아서 한꺼번에 검색해 드립니다. 비공개 글은 검색하지 않으며, 자세한 사항은 아래와 같습니다. .....more

Commented by 에린지움 at 2005/06/08 11:19
음 그렇군요... 하긴 주인이 싫다는데 퍼가는 쪽이 나쁜거지요...
Commented by Renard at 2005/06/08 13:08
펌질을 재배포로 해석하면 검색엔진을 거부하는 것은 당연하다고 봅니다. 일단 조금이라도 자료가 그쪽 회사 서버에 남기때문이죠. 재배포는 저작권자만의 권리입니다. 무료이며 인터넷에 공개된 자료라도 재배포까지 허용된 것은 아닌 것으로 봐야합니다. 이런게 펌글에 태클을 걸 수 있는 근거도 되지 않을까 생각합니다.
Commented by homes at 2005/06/08 23:02
야후는 검색센터 http://kr.searchcenter.yahoo.com/help/hlpz_home.html 안에서 안내하고 있습니다.
http://kr.blog.yahoo.com/ysearch_helper/540392.html?p=1&pm=l
파란은 구글 엔진이고 고객센터에서 웹문서로 검색하면 나옵니다.
한국MSN은 검색 결과에 나오는 도움말에서 찾아들어가야 나오는데
http://help.msn.com/!data/ko_kr/data/msnsearch_07_04.its51/$content$/SEARCH_TROU_IDontWantMyWebPageToAppearInSearchResults.htm
에 있습니다.
Commented by 기불이 at 2005/06/11 22:37
곰부릭 님이 알려주셔서 유용한 정보를 알게 됐습니다. 고맙습니다.
Commented by A-Typical at 2005/06/12 00:32
곰부릭님이 알려주셨나보군요. 유용하다니 기쁩니다.
Commented by dolisV at 2005/06/15 20:10
네이버가 robots.txt 를 지킨다고요?
제일 웃기는 것은.. blog.naver.com/robots.txt 를 한 번 보세요. 분명 모든 로봇이 수집하지 않도록 설정되어 있습니다.
그리고 요걸 보세요..
http://websearch.naver.com/search.naver?where=webkr&qt=ba&query=%B3%D7%C0%CC%B9%F6&lang=&rr=on&r=blog.naver.com&f=all&x=0&y=0
네이버 블로그들은 네이버 웹검색에서 검색되도 괜찮다는 말인지.. 포털들은 하는 짓이 모두 다 똑같다.
Commented by Do at 2005/06/16 00:43
dolisV 님, robots.txt 설정하라고 해놓고 그래도 검색이 되면 고객 센터에 연락하라고 해놓은 회사가 너무 뻔한 거짓말로 이렇게 써놨다고 볼 수는 없는게 아닐까요? 차라리 지키지 않는다면 아무말도 하지 않아야 한다는게 이성적으로 맞겠지요.

특히, 구글에서도 네이버 블로그가 robots.txt 가 설정되어 있는데 왜 노출되는지를 의문시하시는 분들이 있습니다. 이에 대해서 사람들의 분위기는 네이버측의 서버 작업 실수로 한동안 열려있었던게 아닌가 하는 쪽으로 가고 있는 분위기고요. 다른 서비스에서도 같은 이유로 노출되고 있었을테니 시간이 지나면 해결이 되겠지요.

사실 포털들이 하는 짓이 똑같다고 단순히 매도하기에는, 역으로 보면 작은 포탈들 까지 다 지킬건 지키는데 굉장히 특이한 포탈이 딱 하나 존재하는 것뿐 아닐까요?
Commented by jjong at 2005/06/24 09:07
robot.txt를 맨처음 알게 된 것은 서버로그의 not found로그때문이었습니다. 서버개설은 6개월 적용은 5개월짼데 검색사이트대부분은 타이틀네임으로 제 원페이지를 출력하진 않습니다.(대신 댓글, 덧글등 타 블로그에 제 링크가 노출되어 있습니다.) 그렇지만 네이트검색만이 유일하게 원페이지를 가지고 있는데다가 캐시까지 가지고 있군요. 흠 네이트가 정말 지키는지 확인해볼 필요가..?
Commented by 엠파스씨 at 2005/06/24 09:44
저희 엠파스에서는 robots.txt에 대한 검색정책을 강화하여, 6월 23일 18:00 부로 로봇을 통한 수집 거부의사를 표방한 웹사이트들의 DB에 대해서는 더이상 수집하지 않도록 조치했습니다.
그리고 이전에 검색결과에 노출되고 있었던 수집거부 대상 DB에 대해서도 삭제조치 완료하였습니다.

단, 웹사이트 운영자와 정보의 저작권자가 동일한 경우에 한해서만 robots.txt의 거부를 인정하고 조치를 취하고 있습니다.

로봇정책은 엠파스 고객센터(http://help.empas.com/view_faq.html?csn=4&dsn=19&fsn=742)에서 구체적인 내용을 확인하실 수 있습니다.

살펴보시고 아직 반영되지 못한 부분이 발견되면 언제든지 신고해 주세요.

바로 조치해 드리겠습니다.


높은 관심에 다시한번 감사합니다.
Commented by A-Typical at 2005/06/25 09:16
엠파스씨님이라고 부르면 어색하고.. 엠파스님이라고 해야할지, 엠파스씨라고 해야할지.. 아무튼 알려주셔서 감사합니다. 본문에 반영하겠습니다.
Commented by 엠파스씨 at 2005/07/02 04:57
엠파스에서는 7월 1일부로 블로그 열린검색을 오픈하기 전에 '내 블로그를 검색해보고 검색신청 및 검색제외 신청'을 할 수 있는 페이지를 마련하였습니다. 살펴보시고 더 개선할 내용이 있으면 의견 부탁드립니다. 감사합니다.

아래 주소에서 블로그 주소, 필명, 아이디로 검색해서 확인하시면 됩니다. 관련내용 트랙백으로도 걸어 두겠습니다.
http://search.empas.com/ok/blog.html
Commented by tzsche at 2006/10/15 00:29
검색엔진으로 들어온 리퍼러 로그가 물 밀듯이 사라지겠네요.
좋은 정보 감사합니다. 꼭 알고 싶었었답니다. ^^
Commented by tzsche at 2006/10/15 21:19
다른 것들은 다 걸려졌는데, 야후는 계속 검색이 되네요.
싹 깨끗하게 물리치고 싶은데.. ㅡㅡ;;;
Commented by A-Typical at 2006/10/15 23:11
tzche님//돼지 저금통 배를 갈라서 야후를 인수해 버리세요. ^^

:         :

:

비공개 덧글

◀ 이전 페이지 다음 페이지 ▶