Microsoft MVP성태의 닷넷 이야기
DoS 공격(?) 수준의 검색 로봇 방문 [링크 복사], [링크+제목 복사]
조회: 15874
글쓴 사람
정성태 (techsharer at outlook.com)
홈페이지
첨부 파일
 
(연관된 글이 1개 있습니다.)

DoS 공격(?) 수준의 검색 로봇 방문

제 웹 사이트는 거의 '페이지' 단위로 정확하게 정보를 제공해주는 유형이기 때문에 '페이지 뷰'가 어느 정도는 의미가 있습니다. 그런데, 이러한 통계 결과를 산정하는 데 심각한 방해꾼(?)이 있는데 바로 '검색 로봇'입니다.

일례로, 하루 정도 검색 로봇의 제 웹 사이트 요청 수를 보면 다음과 같이 어마어마합니다.

[표 1: 상위 6개의 검색 로봇]

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)27120
Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)4482
Yeti/1.0 (NHN Corp.; http://help.naver.com/robots/)1208
Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)462
pirst176
Mozilla/5.0 (...[생략]...; +http://ws.daum.net/aboutWebSearch.html) Daumoa/2.0149

위의 목록을 포함해서 거의 60개 가까운 검색 로봇이 약 3만 3천 건의 요청들을 발생시키고 있었습니다.

반면, (평범한 user-agent를 가장한 것은 판단할 수 없으므로) 로봇이 아닌 듯한 User-Agent 문자열을 포함한 요청은 총 1,175 건이 들어왔습니다. 바로 이 수치가, 제 웹 사이트에 '정상적인 의지'를 가지고 들어온 사용자들의 요청일 테지요. ^^ 그런데, 재미있는 점이 하나 더 있는데, User-Agent 를 기준으로 서로 다른 문자열이 무려 244건이나 있었습니다. 중복된 User-Agent를 가진 사용자가 없다고 가정했을 때 제 사이트에 최소한 240명/1일 정도의 사용자 접속이 있다고 가정할 수 있습니다.




검색 로봇 중에서, 단연코 구글 검색 로봇의 방문 횟수가 눈에 띕니다. 어쩌면... '악성 로봇'이라고 불려도 손색이 없을 정도인데요. 그렇다고 구글로부터 검색해서 들어오는 사용자들을 위해서 막을 수도 없고... 반면 저렇게 방치하자니, 쓸데없는 CPU 소비와 그로 인한 전기의 소비가 걱정스러운 수준입니다. (지구를 위해서도 좋지 않지요. ^^)

그러다가, 제 웹 페이지에 과도하게 많은 '링크'가 있다는 것이 눈에 띄었습니다. 검색 로봇은 그 특성상, 해당 웹 페이지에 포함되어 있는 링크들까지도 방문하기 때문에 제가 구성한 '게시판'의 '읽기' 화면에서 '게시물 목록'을 제공하는 것이 검색 로봇의 과도한 방문을 유도하고 있는 것이 아닌가 하는 생각이 들었습니다.

음... 역시나 그것 때문에 편리한 '게시물 목록' 뷰를 제거하는 것도 적절한 선택은 아닐 수 있는데요. ^^ 다행히 좋은 방법이 있습니다. 바로, 해당 aspx 웹 페이지에 다음과 같은 메타 태그를 포함하는 것입니다.

<meta name="robots" content="nofollow" />

이것을 지정함으로써, 웹 페이지에 포함되어 있는 링크들에 대한 추적을 멈추게 할 수 있습니다. 이렇게 작업을 하고 나서, 하루 동안 다시 구글의 검색 로봇 방문을 검사해 보니, 접속 횟수가 1만 6천번 정도로 뚝(?) 떨어졌습니다.

다행이긴 하지만, 여전히 구글 단독으로 하루에 16,000 번 가량의 제 웹 사이트 페이지를 방문하다니... 심각한 수준입니다.




요즘(대략 10월 13일 이후) 제 웹 사이트의 게시물에 대한 조회 수가 이전과 비교해서 뚝 떨어진 것을 확인할 수 있습니다. Robot 조회 수를 제외하니 그렇게 된 것인데... 그래도 어쩔 수 없지요. 정확한 통계가 더 중요하니. ^^

(sysnet 같은 소규모 웹 사이트에서도 이 정도의 검색 로봇이 방문할 정도인데, 일부 웹 사이트들이 제시하는 페이지 뷰 통계가 과연 정확한 것일까... 하는 의문이 들더군요.)



[연관 글]






[최초 등록일: ]
[최종 수정일: 11/8/2011]

Creative Commons License
이 저작물은 크리에이티브 커먼즈 코리아 저작자표시-비영리-변경금지 2.0 대한민국 라이센스에 따라 이용하실 수 있습니다.
by SeongTae Jeong, mailto:techsharer at outlook.com

비밀번호

댓글 작성자
 



2011-11-18 10시49분
[Lyn] 전 구글은 하루 천건 남짓인데..

다음이 수십만건식 긁어가더군요 =_=;
[guest]
2011-11-18 08시07분
다들 문제가 있군요. ^^ 어쨌든, 검색엔진의 무차별 방문은 분명 문제가 있는 것 같습니다.
정성태

1  [2]  3  4  5  6  7  8  9  10  11  12  13  14  15  ...
NoWriterDateCnt.TitleFile(s)
527정성태7/13/20215556Microsoft Edge의 뉴스 알림 창 끄는 방법
526정성태7/11/202111233AMD CPU를 장착한 컴퓨터에서 Windows 11을 위한 fTPM 활성화 방법
525정성태6/30/20219422저작권 표시 없는 상업적 사용 가능한 무료 아이콘 구하기 [3]
524정성태6/25/20218471Windows 11 설치를 가로막는 TPM 칩, 운이 좋다면 구매할 수 있습니다. [3]
523정성태5/3/20219942절전 모드로 내려가는 우분투 머신 [7]
522정성태9/16/2020107452020년 작업 PC ^^ [7]
521정성태11/25/201910872[종료] "시작하세요. C# 8.0 프로그래밍" 책을 1만원에 판매합니다. (4권 한정) [2]
520정성태8/26/20197437Snagit 2019(Build 3847) 사용 시 Effect 변경 후 창을 닫는 시점에 응용 프로그램이 종료하는 현상
519정성태7/15/20199579youtube-dl.exe를 윈도우 샌드 박스에서 실행
518정성태7/1/201910333크로미움 기반의 Microsoft Edge 웹 브라우저... 쓸만하네요. ^^ [4]
517정성태5/16/20199443윈도 운영체제는 태생적으로 갖고 있는 문제들로 인해 아직도 매우 취약한 운영체제로 분류됩니다?!! [2]
516정성태5/16/20198472배터리 사용 중인 태블릿에는 크롬보다는 Edge 브라우저가 더 낫습니다.
515정성태11/19/201812792LED 전등 교체와 잔광 현상 제거 콘덴서 - 두 번째 이야기
514정성태10/30/201814434LED 매입등 교체와 잔광 현상 제거 콘덴서
513정성태9/13/20189775블로거 분들 랜섬웨어 메일 "저작권관련 이미지 무단사용 안내메일(장명옥 본인제작)" 조심하세요. [2]
512정성태8/10/20189549번개는 땅에서부터 하늘로 올라가는 현상? [1]
511정성태7/21/20189916[종료] DDR 3 4GB * 4EA, AMD 페넘II-X4 905e, 메인 보드 GA-770TA-UD3를 드립니다. [3]
509정성태6/12/201811346목/허리가 아픈 개발자들을 위한 근육 마사지 치료법 - KSNS [1]
508정성태5/22/201814782로이 베나비데스
507정성태4/13/201810827sysnet 블로그 관련 수치 [1]
506정성태1/20/201816911삼성 A/S 경험 - 오디세이(Odyssey) 노트북이 게임 도중 갑자기 전원이 나가는 경우 [2]
505정성태1/9/201716005모니터 간단 소개 - LG IPS LED 24MA53, 델 UltraSharp 24 - U2414H, 알파스캔 AOC 2477 IPS
504정성태9/25/201621270모니터 3대를 NVidia Surround로 연결하기 - 두 번째 [3]
503정성태9/22/201615557Wacom BAMBOO 태블릿 - Tablet PC Defined 메뉴가 없는 경우 [1]
501정성태5/31/201615577twoomail.com으로부터 온 "'...'님이 쪽지를 보냈습니다."는 twoo.com의 스팸 메일입니다.
499정성태2/16/2016176292016년 작업 PC ^^ [2]
1  [2]  3  4  5  6  7  8  9  10  11  12  13  14  15  ...