단행본
R을 활용한 머신 러닝: R로 머신 러닝 알고리즘 작성, 데이터 준비, 데이터 예측 기법 깊이 파기
- 저자
- 브레트 란츠 지음;, 윤성진 옮김
- 발행사항
- 서울: 에이콘, 2017
- 형태사항
- 566 p.: 삽도, 24cm
- 서지주기
- 색인을 포함하고 있음
소장정보
위치 | 등록번호 | 청구기호 / 출력 | 상태 | 반납예정일 |
---|---|---|---|---|
이용 가능 (1) | ||||
한국청소년정책연구원 | 00029016 | 대출가능 | - |
이용 가능 (1)
- 등록번호
- 00029016
- 상태/반납예정일
- 대출가능
- -
- 위치/청구기호(출력)
- 한국청소년정책연구원
책 소개
이 책을 읽다 보면 '머신 러닝이 이렇게 쉬운 거였어?'라는 생각이 들기도 하고, 수학이나 프로그래밍 언어를 잘 몰랐어도 직관적으로 머릿속에 쏙쏙 들어오는 머신 러닝 개념에 흥미를 느끼고 있는 자신을 발견하게 될 것이다. 몇 줄의 R 코드로 머신 러닝이 어떻게 작동되는지 눈으로 직접 확인할 수 있고 최신의 기법까지 내 손으로 직접 짜 볼 수 있는 짜릿한 경험과 자신감을 제공해 주는 것이 이 책의 매력이다. 머신 러닝을 즐겁게 시작하고 싶은 독자 여러분에게 이 책을 추천해본다!
★ 이 책에서 다루는 내용 ★
■ R의 힘을 이용해서 실제 데이터 과학 응용으로 일반적인 머신 러닝 알고리즘 구축
■ 분석을 위한 데이터 정제 및 준비와 결과를 시각화하기 위한 R 기술 이해
■ 여러 종류의 머신 러닝 모델을 찾아 데이터 요구사항 충족 및 분석 문제를 해결하기 위한 최고의 모델 파악
■ 베이지안과 최근접 이웃 방법을 이용한 데이터 분류
■ 의사결정 트리, 규칙, 서포트 벡터 머신을 구축한 값 예측
■ 선형 회귀를 이용한 수치 값 예측과 신경망을 이용한 데이터 모델링
■ 머신 러닝 모델의 성능 평가와 개선
■ 텍스트 마이닝, 소셜 네트워크 데이터, 빅데이터에 특화된 머신 러닝 기법
★ 이 책의 대상 독자 ★
이 책은 데이터를 실전에 사용하고 싶은 사람들을 위한 책이다. 머신 러닝에 대해 이미 조금은 알고 있지만 R을 사용해보지 않았거나 R에 대해 조금 알지만 머신 러닝은 처음일 수 있다. 어떤 경우든 이 책을 통해 빠르게 학습하고 응용할 수 있게 될 것이다. 기본적인 수학과 프로그래밍 개념을 조금이라도 아는 것이 머신 러닝을 배우는 데에 도움 되겠지만, 이전의 경험은 필요 없다. 오직 필요한 것은 호기심뿐이다.
★ 이 책의 구성 ★
1장, '머신 러닝 소개'에서는 기계 학습자(machine learner)를 정의하고 구분해주는 용어와 개념을 살펴보고 학습 작업을 적절한 알고리즘에 매칭하는 방법을 제시한다.
2장, '데이터의 관리와 이해'에서는 R을 이용해서 데이터를 직접 다룰 수 있는 기회를 제공한다. 데이터를 로딩하고 탐색하고 이해하는 데 사용되는 필수 데이터 구조와 절차를 설명한다.
3장, '게으른 학습: 최근접 이웃 분류'에서는 단순하지만 강력한 머신 러닝 알고리즘을 이해하고 첫 번째 실제 작업인 암의 악성 샘플 식별에 적용하는 방법을 알려준다.
4장, '확률적 학습: 나이브 베이즈 분류'에서는 최첨단 스팸 필터링 시스템에서 사용하고 있는 확률의 핵심적인 개념을 소개한다. 독자는 자신만의 스팸 필터를 개발하는 과정에서 텍스트 마이닝의 기초를 배운다.
5장, '분할 정복: 의사결정 나무와 규칙 기반의 분류'에서는 예측을 정확하고 쉽게 설명하는 두 학습 알고리즘을 탐색한다. 이 방법은 투명성이 중요한 작업에 적용된다.
6장, '수치 데이터 예측: 회귀 방법'에서는 수치 예측에 사용되는 머신 러닝 알고리즘을 소개한다. 이 기법은 통계 분야에 아주 많이 포함돼 있으므로 수치 관계를 이해하는 데 필요한 필수 척도도 함께 알아본다.
7장, '블랙박스 방법: 신경망과 서포트 벡터 머신'에서는 복잡하고 강력한 두 종류의 머신 러닝 알고리즘을 다룬다. 수학이 위협적으로 보일 수 있겠지만, 내부 작동을 보여주는 예제와 함께 간단한 용어로 진행할 것이다.
8장, '패턴 찾기: 연관 규칙을 이용한 장바구니 분석'에서는 많은 소매업체가 채택한 추천 시스템의 알고리즘을 접할 수 있다. 소매업체가 나의 구매 습관을 나보다 더 잘 아는 이유가 궁금한 적이 있었다면 8장에서 그 비밀을 밝혀준다.
9장, '데이터 그룹 찾기: k-평균 군집화'에서는 관련 아이템을 군집화하는 절차를 알아본다. 이 알고리즘을 활용해서 온라인 커뮤니티에서 프로파일을 식별할 것이다.
10장, '모델 성능 평가'에서는 머신 러닝 프로젝트의 성공 여부를 측정하고 미래 데이터에 대해 학습자의 신뢰할 만한 성능 추정치를 얻는 방법에 대한 정보를 제공한다.
11장, '모델 성능 개선'에서는 머신 러닝 대회의 최상위 팀이 사용하는 방법을 밝힌다. 경쟁이 심하거나 단순히 데이터를 최대한 활용하고 싶다면 이런 기술을 레퍼토리에 추가할 필요가 있다.
12장, '특화된 머신 러닝 주제: 머신 러닝의 최첨단 분야를 탐구한다. 빅데이터로 작업하는 것부터 R 작업을 더 빠르게 하는 것까지 12장에서 다루는 주제는 R로 할 수 있는 범위를 넓히는 데 도움이 된다.
★ 이 책에서 다루는 내용 ★
■ R의 힘을 이용해서 실제 데이터 과학 응용으로 일반적인 머신 러닝 알고리즘 구축
■ 분석을 위한 데이터 정제 및 준비와 결과를 시각화하기 위한 R 기술 이해
■ 여러 종류의 머신 러닝 모델을 찾아 데이터 요구사항 충족 및 분석 문제를 해결하기 위한 최고의 모델 파악
■ 베이지안과 최근접 이웃 방법을 이용한 데이터 분류
■ 의사결정 트리, 규칙, 서포트 벡터 머신을 구축한 값 예측
■ 선형 회귀를 이용한 수치 값 예측과 신경망을 이용한 데이터 모델링
■ 머신 러닝 모델의 성능 평가와 개선
■ 텍스트 마이닝, 소셜 네트워크 데이터, 빅데이터에 특화된 머신 러닝 기법
★ 이 책의 대상 독자 ★
이 책은 데이터를 실전에 사용하고 싶은 사람들을 위한 책이다. 머신 러닝에 대해 이미 조금은 알고 있지만 R을 사용해보지 않았거나 R에 대해 조금 알지만 머신 러닝은 처음일 수 있다. 어떤 경우든 이 책을 통해 빠르게 학습하고 응용할 수 있게 될 것이다. 기본적인 수학과 프로그래밍 개념을 조금이라도 아는 것이 머신 러닝을 배우는 데에 도움 되겠지만, 이전의 경험은 필요 없다. 오직 필요한 것은 호기심뿐이다.
★ 이 책의 구성 ★
1장, '머신 러닝 소개'에서는 기계 학습자(machine learner)를 정의하고 구분해주는 용어와 개념을 살펴보고 학습 작업을 적절한 알고리즘에 매칭하는 방법을 제시한다.
2장, '데이터의 관리와 이해'에서는 R을 이용해서 데이터를 직접 다룰 수 있는 기회를 제공한다. 데이터를 로딩하고 탐색하고 이해하는 데 사용되는 필수 데이터 구조와 절차를 설명한다.
3장, '게으른 학습: 최근접 이웃 분류'에서는 단순하지만 강력한 머신 러닝 알고리즘을 이해하고 첫 번째 실제 작업인 암의 악성 샘플 식별에 적용하는 방법을 알려준다.
4장, '확률적 학습: 나이브 베이즈 분류'에서는 최첨단 스팸 필터링 시스템에서 사용하고 있는 확률의 핵심적인 개념을 소개한다. 독자는 자신만의 스팸 필터를 개발하는 과정에서 텍스트 마이닝의 기초를 배운다.
5장, '분할 정복: 의사결정 나무와 규칙 기반의 분류'에서는 예측을 정확하고 쉽게 설명하는 두 학습 알고리즘을 탐색한다. 이 방법은 투명성이 중요한 작업에 적용된다.
6장, '수치 데이터 예측: 회귀 방법'에서는 수치 예측에 사용되는 머신 러닝 알고리즘을 소개한다. 이 기법은 통계 분야에 아주 많이 포함돼 있으므로 수치 관계를 이해하는 데 필요한 필수 척도도 함께 알아본다.
7장, '블랙박스 방법: 신경망과 서포트 벡터 머신'에서는 복잡하고 강력한 두 종류의 머신 러닝 알고리즘을 다룬다. 수학이 위협적으로 보일 수 있겠지만, 내부 작동을 보여주는 예제와 함께 간단한 용어로 진행할 것이다.
8장, '패턴 찾기: 연관 규칙을 이용한 장바구니 분석'에서는 많은 소매업체가 채택한 추천 시스템의 알고리즘을 접할 수 있다. 소매업체가 나의 구매 습관을 나보다 더 잘 아는 이유가 궁금한 적이 있었다면 8장에서 그 비밀을 밝혀준다.
9장, '데이터 그룹 찾기: k-평균 군집화'에서는 관련 아이템을 군집화하는 절차를 알아본다. 이 알고리즘을 활용해서 온라인 커뮤니티에서 프로파일을 식별할 것이다.
10장, '모델 성능 평가'에서는 머신 러닝 프로젝트의 성공 여부를 측정하고 미래 데이터에 대해 학습자의 신뢰할 만한 성능 추정치를 얻는 방법에 대한 정보를 제공한다.
11장, '모델 성능 개선'에서는 머신 러닝 대회의 최상위 팀이 사용하는 방법을 밝힌다. 경쟁이 심하거나 단순히 데이터를 최대한 활용하고 싶다면 이런 기술을 레퍼토리에 추가할 필요가 있다.
12장, '특화된 머신 러닝 주제: 머신 러닝의 최첨단 분야를 탐구한다. 빅데이터로 작업하는 것부터 R 작업을 더 빠르게 하는 것까지 12장에서 다루는 주제는 R로 할 수 있는 범위를 넓히는 데 도움이 된다.
목차
1장. 머신 러닝 소개
2장. 데이터의 관리와 이해
3장. 게으른 학습: 최근접 이웃 분류
4장. 확률적 학습: 나이브 베이즈 분류
5장. 분할 정복: 의사결정 트리와 규칙 기반의 분류
6장. 수치 데이터 예측: 회귀 방법
7장. 블랙박스 방법: 신경망과 서포트 벡터 머신
8장. 패턴 찾기: 연관 규칙을 이용한 장바구니 분석
9장. 데이터 그룹 찾기: K-평균 군집화
10장. 모델 성능 평가
11장. 모델 성능 개선
12장. 특화된 머신 러닝 주제