본문 바로가기

카테고리 없음

[Crawling공부] #1 배운내용 정리

반응형

1. 크롤링 : 규칙적으로 업데이트 될 때마다 방문해서 데이터를 긁어옴

2. 스크래핑 : 내가 원하는 ex) 뉴스의 10개를 가져올거야 

3. HTML은 태그로 구성되어 있다

4. 개발자 도구 : 데이터를 크롤링 할 수 있도록 도와주는 도구

 

CSS Selector 나 xpath 뭐 쓰는지 상관없긴 함!

도구->개발자도구->elements 와 network탭이 젤 중요

network은 처리하는 과정을 보여주고 있음

 

<크롤링 및 스크랩핑 전 주의사항>

1. 대상 웹 페이지 조건 확인 - robots.txt 라는 파일로 저장되 있어야 함!

2. 크롤러 분류 - 내가 가져올 정보의 상태 유무, 자바스크립트 유무

3. ★request 요청시 주의할 점 -서버 부하 고려!!(상대 사이트에 대한 예의를 지키자!)

4. 특정 콘텐츠 저작권 문제

5. 페이지구조 변경 가능성 숙지 -실습하는 사이트의 구조가 바뀔 가능성 있음..

   그래서 개발자 도구를 통해 유연하게 바뀐위치로 다시 크롤링해야함

  (내가 반든 크롤링 서버를 지속적으로 유지 보수 해야함!)

# data api를 이용하면 서버과부하도 없고 잘 수집할 수 있도록 도와줌! (되도록이면 api 활용!)

 

<urllib 사용법 및 기초 스크래핑>

urlretrieve : 다운로드

urlopen : 웹에서 가져온 데이터를 따른 함수에 넘길때 이 함수 자주사용(다운로드는 안함!)

 

 

 

반응형