반응형
1. 크롤링 : 규칙적으로 업데이트 될 때마다 방문해서 데이터를 긁어옴
2. 스크래핑 : 내가 원하는 ex) 뉴스의 10개를 가져올거야
3. HTML은 태그로 구성되어 있다
4. 개발자 도구 : 데이터를 크롤링 할 수 있도록 도와주는 도구
CSS Selector 나 xpath 뭐 쓰는지 상관없긴 함!
도구->개발자도구->elements 와 network탭이 젤 중요
network은 처리하는 과정을 보여주고 있음
<크롤링 및 스크랩핑 전 주의사항>
1. 대상 웹 페이지 조건 확인 - robots.txt 라는 파일로 저장되 있어야 함!
2. 크롤러 분류 - 내가 가져올 정보의 상태 유무, 자바스크립트 유무
3. ★request 요청시 주의할 점 -서버 부하 고려!!(상대 사이트에 대한 예의를 지키자!)
4. 특정 콘텐츠 저작권 문제
5. 페이지구조 변경 가능성 숙지 -실습하는 사이트의 구조가 바뀔 가능성 있음..
그래서 개발자 도구를 통해 유연하게 바뀐위치로 다시 크롤링해야함
(내가 반든 크롤링 서버를 지속적으로 유지 보수 해야함!)
# data api를 이용하면 서버과부하도 없고 잘 수집할 수 있도록 도와줌! (되도록이면 api 활용!)
<urllib 사용법 및 기초 스크래핑>
urlretrieve : 다운로드
urlopen : 웹에서 가져온 데이터를 따른 함수에 넘길때 이 함수 자주사용(다운로드는 안함!)
반응형