한국청소년정책연구원 도서관

로그인

한국청소년정책연구원 도서관

자료검색

  1. 메인
  2. 자료검색
  3. 통합검색

통합검색

단행본

한입에 웹 크롤링: 프알못의 파이썬 데이터 수집 자동화 한 방에 끝내기

발행사항
서울: 비제이퍼블릭, 2018
형태사항
347 p: 삽도, 24cm
소장정보
위치등록번호청구기호 / 출력상태반납예정일
이용 가능 (1)
한국청소년정책연구원00028417대출가능-
이용 가능 (1)
  • 등록번호
    00028417
    상태/반납예정일
    대출가능
    -
    위치/청구기호(출력)
    한국청소년정책연구원
책 소개
‘프’로그래밍 잘 ‘알’지 ‘못’해도
참 쉬운 파이썬 데이터 수집 자동화


일을 자동화하는 것은 이제는 필수를 넘어 생존 조건입니다. 만약 대량의 정보를 웹에서 지속적으로 받고 필요한 정보를 골라서 처리해야 한다면 어떨까요? 키워드를 하나씩 검색해서 정보를 얻고 저장하고 직접 가공한다면 많은 시간과 노력이 필요할 것입니다. 이런 상황이라면 비교적 짧은 시간을 거쳐 만든 크롤러가 당신의 삶의 질을 완전히 개선할 수 있습니다.

본 책에서는 프로그래밍에 문외한인 분들도 자신만의 크롤러를 만들고 활용할 수 있도록 개발 환경 설치부터 코딩까지 그림과 함께 단계별로 쉽게 풀어서 설명하였습니다. 처음부터 모든 개념이 쉽게 다가오지는 않을 겁니다. 하지만, 한 단계씩 실습해보고, 다른 예시를 찾아보고 또한 비슷하게 자신만의 코드를 작성해본다면 훨씬 더 빠르고 깊게 프로그래밍에 익숙해질 겁니다. 초반의 작은 실패에 좌절하기보다 작은 성공을 보고 '할 수 있다'는 자신감을 얻으셨으면 좋겠습니다.

이 책의 특징
- 프로그래밍이나 파이썬 초보자도 어렵지 않게 이해할 수 있다.
- 파이썬을 통한 웹 크롤링의 기초부터 API 이용까지 폭넓게 다루었다.
- 생생한 실무 예제를 통해 다른 업무에도 활용할 수 있도록 구성되었다.

이 책이 필요한 독자
- 프로그래밍이 아직 익숙하지 않은 독자
- 파이썬으로 프로그래밍을 시작하고 싶은 독자
- 웹 크롤링의 기초부터 탄탄하게 배우고자 하는 독자

독자대상
초중급

소스코드 다운로드
https://github.com/bjpublic/webcrawling

인터넷에서 데이터를 수집하여 받아오는 것을 크롤링 또는 스크래핑이라고 하고, 크롤링을 하는 프로그램을 크롤러라고 합니다. 웹 크롤링은 단순 반복을 줄여주고 빠르게 처리할 수 있으며, 일의 효율을 높여 인간이 좀 더 인간답게 창의적인 활동에 집중할 수 있도록 도와주는 좋은 도구입니다. 하지만 진입 장벽이 제법 높습니다. 마치 구구단과 같습니다. 우리가 초등학교에서 구구단을 어렵게 공부했지만 지금은 자연스럽게 사용하듯이, 웹 크롤링도 처음 익힐 때는 조금 어렵지만 한번 익혀 놓으면 구구단처럼 평생 사용할 수 있는 좋은 도구입니다.

이 책에서는 크롤러를 쉬운 것부터 조금 복잡한 것까지 단계별로 만들어 볼 예정입니다. 이 책을 통해 좀 더 많은 분들이 웹 크롤링이라는 도구를 이용해 일의 효율을 높이고 인간다우면서 창의적인 일에 몰두하여 조금 더 세상을 살기 좋게 만드는 데 기여를 하셨으면 좋겠습니다.
목차
1장 파이썬에 대해서 1.1 파이썬이란? 1.2 파이썬을 쓰는 이유 1.3 프로그래밍을 배워야 하는 이유 2장 파이썬 개발 환경 구축하기 2.1 파이썬3 설치하기 2.2 파이참 2.3 프로젝트 2.4 패키지 만들기 2.5 hello 출력하기 3장 파이썬 기초 3.1 변수와 상수 3.2 if문 3.3 함수 3.4 사칙연산 예제로 배우는 함수 만들기 3.5 반복문 for 3.6 숫자 3.7 문자열 3.8 리스트 3.9 딕셔너리 3.10 딕셔너리 만들기 3.11 라이브러리 4장 웹 기초 4.1 HTTP 4.2 URL 4.3 HTML 5장 크롤러 만들기 5.1 크롬 설치하기 5.2 urllib 패키지 5.3 뷰티풀솝 사용 방법 5.4 네이버에서 특정 글자 추출하기 5.5 네이버 메뉴 이름 뽑아내기 5.6 타입 5.7 네이버 뉴스 제목 가져오기 6장 링크 수집하고 링크에 있는 내용 수집하기 6.1 대상 사이트 구조 파악하기 6.2 requests package 설치하기 6.3 페이지 불러오기 6.4 상세 페이지 링크 뽑아내기 6.5 링크별로 들어가서 페이지 불러오기 6.6 리스트에서 부분만 선택하기 6.7 서브 페이지 호출하기 6.8 서브 페이지에서 이름 추출하기 6.9 위치 추출하기 6.10 링크 추출하기 6.11 함수로 묶기 6.12 0부터 4번째까지 링크 상세 페이지 내용 추출하기 7장 쇼핑몰 크롤링 7.1 데이터 수집할 웹사이트 접속하기 7.2 페이지 불러오기 7.3 한 번에 안 뽑히는 경우 인덱스로 접근하기 7.4 함수로 묶기 7.5 제품명, 가격 함께 뽑기 7.6 딕셔너리로 여러 개 값 리턴하기 7.7 링크 뽑아내기 7.8 한 페이지 데이터를 한 덩어리로 만들기 7.9 한 페이지를 호출하는 부분을 함수로 감싸기 7.10 1페이지부터 5페이지까지 데이터 받아오기 8장 JSON 데이터 다루기 8.1 JSON 8.2 JSON 형식을 표로 표현하기 8.3 파이썬으로 JSON 다루기 8.4 엑셀에 데이터 넣고 데이터 나누기 9장 네이버 API 이용하기 9.1 애플리케이션 등록하기 9.2 API 주소 알아보기 9.3 requests 라이브러리 이용하기 9.4 온라인 제이선 뷰어 이용하기 9.5 API 호출한 후에 필요한 데이터 뽑아내기 9.6 API 호출 결과인 JSON 9.7 검색 결과 출력하기 9.8 반복문으로 결과 출력하기 9.9 특정 속성값만 뽑아내기 9.10 , 없애기 9.11 링크와 함께 출력하기 9.12 검색 결과를 10개에서 100개로 늘리기 9.13 함수로 묶기 9.14 검색 결과 페이징하기 9.15 결과 출력하기 9.16 여러 페이지 호출하기 9.17 제목, 블로거 이름, 링크만 뽑아서 엑셀에 넣기 9.18 엑셀에 데이터 넣고 가공하기 10장 세계 곡물 가격 JSON 데이터 호출해서 엑셀로 차트 그리기 10.1 대상 사이트 접속하기 10,2 대상 URL 알아보기 10.3 파이썬에서 호출하기 10.4 엑셀에 데이터를 넣고 차트 그리기 11장 공공 데이터 API 이용하기 11. 1 공공 데이터 들어가기 11.2 오픈 API 신청하기 11.3 신청한 API 활용하기 11.4 서울의 심야 약국 수 조사 11.5 커리어넷 진로직업정보 데이터로 원하는 직업 찾아보기 12장 Git 12.1 github.com 가입하기 12.2 리포지토리 12.3 GitHub에서 저장소 생성하기 12.4 리모트 리포지토리를 로컬 리포지토리로 가져와서 사용하기 12.5 GitHub의 다른 프로젝트 소스코드 가져와서 사용하기