Phantom

키워드 기반 크롤링 프로젝트 - 2 본문

Project

키워드 기반 크롤링 프로젝트 - 2

Ph4nt0m_ 2018. 2. 8. 13:21
반응형
어제에 이어서 1개의 사이트에서 키워드 관련 기사 링크하기 이다.

생각보다 초반은 쉬웠다 Scrapy는 Crawling FrameWork로써 다양한 기능을 지원하는데 그중 하나가 키워드 이다.



이런 방식으로 사용이 가능하다.


위 그림의 url 형태를 분석해보자

우선 보안뉴스 사이트에서 아무것도 입력하지않은 상태로 검색을 하면 다음 URL이 나오게 된다.


그럼 이것을 필요한 부분에 따라 잘라넣어야 한다.

여기에 표시가 되지 않았지만 Page변수는 1일때는 표시되지 않는다.

그렇다면 "개인정보" 로 검색을 하고 2번 페이지로 갔을때의 URL을 보도록 하겠다.


이것을 이제 입력할 부분으로 나누어 본다면 


Page 번호부분에 입력이 들어가고 그 후에 find 부분에 키워드가 들어가게 된다.

다시 소스를 보자면..


Page는 기본값을 1로 두도록하고, keyword는 입력을 받고 인코딩하여 전송한다.

여기서 삽질을 조금했다.

처음엔 URL 인코딩인 줄알았지만 길이가 달랐다.

"개인정보"를 인코딩 했을때, 


이탓에 어떤 인코딩이 되어있는건지 찾느라 시간이 조금 걸렸다.

"가"를 입력하고 나온 결과값을 구글링하면 쉽게 찾을 수 있더라.. 삽질..후.. 배움의 연속이다.

이제 제로데이라는 키워드로 크롤링을 해보겠다.


아 좋구요  이제 사이트 개수를 늘리면 될것 같다.

참조 링크

http://gungume.tistory.com/207

https://doc.scrapy.org/en/latest/topics/spiders.html?highlight=keyword

https://gist.github.com/re4lfl0w/47bf3b460b345ea79630

http://yoonpunk.tistory.com/6

반응형
Comments