- Today
- Total
목록Project (4)
Phantom
이번은 그냥 간단한 링크 가공이다. 키워드 기반 크롤링 프로젝트 - 1 키워드 기반 크롤링 프로젝트 - 2 이전 글들을 보면 알겠지만.. 링크가 파라미터까지 전부 날라간 형태로 저장이 된다. 이런 형식으로 말이다. 그래서 정규 표현식을 이용해 뒷부분을 잘라내고 다시 앞부분을 붙일 생각이다. 파이썬 정규표현식 모듈을 임포트 해주고 고정텍스트 부분은 그대로 쓰고 가변적인 부분을 정규표현식으로 처리해줬다. 그리고 앞부분을 붙여서 item['link']에 리턴해준다. 결과물 결과 값 검증 참조 링크 http://egloos.zum.com/sweeper/v/3065126
어제에 이어서 1개의 사이트에서 키워드 관련 기사 링크하기 이다. 생각보다 초반은 쉬웠다 Scrapy는 Crawling FrameWork로써 다양한 기능을 지원하는데 그중 하나가 키워드 이다. 이런 방식으로 사용이 가능하다. 위 그림의 url 형태를 분석해보자 우선 보안뉴스 사이트에서 아무것도 입력하지않은 상태로 검색을 하면 다음 URL이 나오게 된다. 그럼 이것을 필요한 부분에 따라 잘라넣어야 한다. 여기에 표시가 되지 않았지만 Page변수는 1일때는 표시되지 않는다. 그렇다면 "개인정보" 로 검색을 하고 2번 페이지로 갔을때의 URL을 보도록 하겠다. 이것을 이제 입력할 부분으로 나누어 본다면 Page 번호부분에 입력이 들어가고 그 후에 find 부분에 키워드가 들어가게 된다. 다시 소스를 보자면....
우선 방식을 이렇게 하려한다 1개의 사이트, 개수지정 크롤링 1개의 사이트, 키워드 기반 개수 지정 크롤링 N개의 사이트, 키워드 기반 개수 지정 크롤링 필터링 작업 및 Visualizing 나는 먼저 보안뉴스를 크롤링 대상으로 정했다. 사이트에 들어가 보면 각 기사들이 나열 되는데 이 부분을 크롤링 할 것이다. 많은 컨텐츠가 필요한것이 아니기때문에 크롤링 방식은 RSS 피드를 긁어올것이다. 이 부분에서 title, link, date를 긁어올것이다. scrapy shell로 테스트 결과 바로 200 OK response가 오므로 굳이 리퀘스트정보는 조사할 필요가 없을것 같다. 값도 있겠다 이제 프로그래밍을 해준다. items.py pipelines.py settings.py에 다음 라인 추가 DEFAU..