한국청소년정책연구원 도서관

로그인

한국청소년정책연구원 도서관

자료검색

  1. 메인
  2. 자료검색
  3. 통합검색

통합검색

단행본

R로 하는 빅데이터 분석: 데이터 전처리와 시각화

발행사항
서울: 숨은원리, 2019
형태사항
326 p.: 삽도, 25cm
비통제주제어
자료분석, 빅데이터
소장정보
위치등록번호청구기호 / 출력상태반납예정일
이용 가능 (1)
한국청소년정책연구원00028881대출가능-
이용 가능 (1)
  • 등록번호
    00028881
    상태/반납예정일
    대출가능
    -
    위치/청구기호(출력)
    한국청소년정책연구원
책 소개
이 책은 쿡북(Cookbook)이 아니다!

물론 프로그래밍 언어으로 원하는 목적을 달성하는 가장 빠른 방법은 이미 작동하는 소스 코드를 실행하는 것이다. 하지만 소스 코드를 고쳐야 한다면!?!

그 때부터는 수많은 문법오류, 논리오류(버그)에 잘 돌아가던 프로그램도 안 돌아가는 신비한 경험을 하게 된다. 그 버그란 무엇 때문에 생기는가? 실수, 수면부족, 주의 산만 등 다양한 원인이 있겠지만, 또 다른 주요 원인은 튼튼하지 못한 기초에 있다!

 NA > 3은 왜 NA이고, NA | TRUE는 왜 TRUE인가?
 데이터테이블(data.table)의 복잡한 문법은 어떻게 이해해야 하는가?
 정규표현식의 메타문자는 무엇이고, 어떻게 다루어야 하는가?
 ggplot2의 수많은 옵션은 어떻게 외워야 할까?

패키지, 벡터, 데이터프레임 등 기초부터 데이터테이블, 정규표현식, ggplot2까지
데이터 전처리와 시각화를 위한 핵심을 모두 담았다!

이 책은 어느 정도 프로그래밍 경험이 있는 독자를 대상으로, 오픈 소스 데이터 분석 도구인 R을 활용하여 데이터를 불러들이고, 가공하고, 시각화하는 방법을 설명한다. 이 책은 시중의 책들과 달리 특정한 기능을 하는 함수들을 설명하기 전에 데이터 전처리의 목적과 기능에 대한 개념적인 이해를 우선 할 수 있도록 도와준다. 그리고 날짜시간 자료형, 문자열 자료형, 정규표현식 등에 대한 원리와 응용 방법을 자세하게 설명하여 복잡한 전처리 과정에서도 논리적 오류를 범하지 않도록 한다. 분산처리 없이 빅데이터 처리를 할 수 있는 마지막 보류인 데이터테이블을 dplyr 패키지의 함수와 비교하여 이해를 도왔고,ggplot2의 설명에서는 플롯의 수많은 옵션을 정하는 방법을 한 눈에 보기 싶게 보여준다. 그 밖에도 부록으로 RStudio의 치트시트를 수록하였다. 어느 정도 R에 익숙한 독자들에게도 R의 데이터 전처리와 시각화에 대해 좀 더 깊이 알 수 있게 하였다. 레퍼런스 북으로도 손색이 없다.

   R 최신 버전 3.5.2(2018-12-20) 반영
 빅데이터 분석을 위한 최선의 선택-data.table 패키지(최신버전 1.12.0)에 대한 설명 수록
 RStudio의 ggplot2(최신버전 3.1.0) 등 패키지 치트시트(cheatsheet) 수록
 백과사전식의 나열이 아니라 개념 중심의 체계적인 이해 중시
 좀 더 테크니컬한 심층 활용 방법과 오류를 사전에 방지하는 방법 설명
 각종 참고 자료 및 표 수록
 다양한 원서의 내용 종합
- Spector(2008). Data Manipulation with R.
- Kabacoff(2015). R in Action: Data Analysis and Graphics with R
- Wickham(2016). ggplot2: Elegant Graphics for Data Analysis.
- Lander(2017). R for Everyone: Advanced Analytics and Graphics.
- Wickham & Grolemund(2017). R for Data Science.
- Van Der Loo & De Jong(2018). Statistical Data Cleaning with Applications in R.
 ds.sumeun.org 홈페이지 운영
목차
서문 1. 들어가기 2. R의 패키지(Packages) 3. R의 변수, 자료형, 연산/함수 4. 데이터 구조 5. dplyr 패키지를 활용한 데이터 가공 6. 날짜와 시간(Date and Time) 7. 팩터형 데이터타입 8. R로 데이터 읽어오기 9. 데이터 가공 10. 패키지 데이터테이블(data.table) 11. 문자열(character) 12. 정규표현식 13. 흐름 제어와 함수 14. 기술 통계량 15. 간편 시각화 16. ggplot2 17. 연습문제 해답 부록 1. R에서 하는 벡터/행렬 연산 부록 2. R의 색, 세계 타임존 부록 3. 치트시트