- Today
- Total
Phantom
와 벌써 한달전이구나..후기를 너무 늦게 쓰는것 같지만 쓰는게 중요하니까 한번 끄적여보자. 우연히 알게된 취업동아리, 기존의 정동아리와 달리 사업단에서 지원을 해주는 동아리 형태이다. 취업동아리가 되면 해야되는 일은 취업 역량 강화. 우리 동아리는 이미 하고있던 일이었다. 그리고 또하나는 취업 박람회를 참석하는것. 너무나도 간단한 일이기에 우리는 취업동아리를 신청하고 30만원을 지원받았다. 동아리에게 너무 적은 금액이 아닌가 싶지만 추가 지원이 있기도하고 생각해보면 어느곳에서 이 동아리를 믿고 30만원이나 지원을 할까? 라는 생각이 드니 당연하다고 느꼈다. 그렇게 교통비를 지원받고 신도림 테크노마트 그랜드볼룸 11층으로 갔다. 이 행사는 과기정통부와 KISA가 주관하는 취업박람회이며 더 좋은건 업무영역이..
이번은 그냥 간단한 링크 가공이다. 키워드 기반 크롤링 프로젝트 - 1 키워드 기반 크롤링 프로젝트 - 2 이전 글들을 보면 알겠지만.. 링크가 파라미터까지 전부 날라간 형태로 저장이 된다. 이런 형식으로 말이다. 그래서 정규 표현식을 이용해 뒷부분을 잘라내고 다시 앞부분을 붙일 생각이다. 파이썬 정규표현식 모듈을 임포트 해주고 고정텍스트 부분은 그대로 쓰고 가변적인 부분을 정규표현식으로 처리해줬다. 그리고 앞부분을 붙여서 item['link']에 리턴해준다. 결과물 결과 값 검증 참조 링크 http://egloos.zum.com/sweeper/v/3065126
어제에 이어서 1개의 사이트에서 키워드 관련 기사 링크하기 이다. 생각보다 초반은 쉬웠다 Scrapy는 Crawling FrameWork로써 다양한 기능을 지원하는데 그중 하나가 키워드 이다. 이런 방식으로 사용이 가능하다. 위 그림의 url 형태를 분석해보자 우선 보안뉴스 사이트에서 아무것도 입력하지않은 상태로 검색을 하면 다음 URL이 나오게 된다. 그럼 이것을 필요한 부분에 따라 잘라넣어야 한다. 여기에 표시가 되지 않았지만 Page변수는 1일때는 표시되지 않는다. 그렇다면 "개인정보" 로 검색을 하고 2번 페이지로 갔을때의 URL을 보도록 하겠다. 이것을 이제 입력할 부분으로 나누어 본다면 Page 번호부분에 입력이 들어가고 그 후에 find 부분에 키워드가 들어가게 된다. 다시 소스를 보자면....