R를 이용한 텍스트 마이닝

단행본한울아카데미 20222022년 BEST 30

R를 이용한 텍스트 마이닝

저자: 백영민 지음
발행사항: 파주: 한울아카데미, 2017
형태사항: 295 p: 삽도, 25cm
총서명: 한울아카데미; 2022
서지주기: 참고문헌과 색인을 포함하고 있음
비통제주제어: 텍스트마이닝, 데이터분석, 텍스트분석, R프로그래밍, 통계분석

소장정보

위치	등록번호	청구기호 / 출력	상태	반납예정일
이용 가능 (1)
한국청소년정책연구원	00027787		대출가능	-

이용 가능 (1)

등록번호
00027787
상태/반납예정일
대출가능
-
위치/청구기호(출력)
한국청소년정책연구원

책 소개

비판적 사회과학을 돕는 데이터 분석 도구
지금 바로 시작하는 R 텍스트 마이닝 실용 레시피!

이 책은 최근 가장 각광받는 프로그래밍 언어이자 오픈소스 프로그램인 R을 이용해 텍스트 분석을 실행하는 실제적인 방법을 안내한다. 다양한 데이터 마이닝 기법과 데이터 처리 방법을 소개하고 이를 구현하는 R 프로그래밍 코드를 첫 줄부터 마지막 줄까지 세심하게 설명했다.
이 책에서 다루는 텍스트 처리기법들은 타당한 근거 위에서 학문적 신뢰성을 획득한 방법이다. 현재 언론학, 정치학, 사회학, 컴퓨터공학, 통계학 등의 학술논문에서 소개되거나 해당 분과의 학술적 주장을 뒷받침하는 자료로서 효용을 인정받고 있다.

특히 수년간 R를 이용한 텍스트 분석 워크숍을 진행해왔으며 스스로 R를 연구에 이용하고 있기도 한 저자의 경험은 이 책이 사회과학 연구자와 학생들의 눈높이와 필요에 맞춤하게 서술되도록 했다. 사회과학 연구자들이 알고리즘 구현에 적극적으로 참여하면서, 장차 사회적 맥락 정보를 텍스트 분석에 정량적 방식으로 투입하는 기법을 세울 수 있을 것이라는 기대를 갖게 한다.

사회학, 심리학, 언론학, 경제·경영학, 문화인류학, 보건의료학 등
사회과학 연구자와 학생을 위한
R 텍스트 마이닝 워크북!

디지털 시대, 텍스트의 홍수에서 의미 건져내기
텍스트는 사회과학 연구자들이 다루는 ‘재료’이다. 이 재료를 이용해 세계와 인간을 분석하는 것이 사회과학자들의 일이다. 전통적으로 텍스트 데이터를 분석하는 기법은 크게 두 가지다. 우선 연구자가 텍스트 데이터를 ‘문자 그대로’ 세밀하게 읽고 이해한 후, 연구자의 이론과 비판적 시각에 따라 요약하거나 일부만 발췌하여 제시하는 방식이다. 흔히 정성적 연구방법을 추구하는 연구자들이 사용하는 방식이며, 텍스트의 의미를 파악하는 가장 타당한 방법이다. 현재로서는 이 방법만이 행간의 의미와 미묘한 뉘앙스 차이를 파악해낼 수 있기 때문이다. 그러나 텍스트 분량이 방대할 경우 실행 자체가 불가능하고, 연구자의 주관적 관점이 개입할 여지가 많다는 문제를 안고 있다.
대용량의 텍스트를 체계적으로 처리하기 위해서는 정성적 연구방법보다는 정량적 연구방법이 더 효율적이다. 언론학을 비롯한 여러 분과의 사회과학자들은 ‘내용분석(content analysis)’ 기법을 이용해 텍스트를 분석해왔다. 그런데 오늘날과 같이 텍스트가 폭발적으로 넘쳐나는 시기에는 전통적 내용분석 방식은 더 이상 유지되기 어렵다. 소셜미디어를 비롯한 온라인 공간에서 발생하는 새로운 종류의 텍스트에 대해 연구자가 충분한 지식을 갖기 어렵고, 따라서 텍스트 분석의 타당성을 확보하기 어렵기 때문이다. 또한 방대한 텍스트 데이터를 분석하기 위해 엄청난 인건비와 관리비용, 시간이 소요되며, 설사 이 문제가 해결된다 하더라도 인간이 방대한 양을 처리하는 과정의 일관성과 신뢰도를 장담할 수 없다.
이 때문에 알고리즘을 활용한 텍스트 분석방법이 주목받고 있다. 알고리즘에 기초한 텍스트 분석방법은 텍스트를 해석하는 인간의 지능을 유사하게 혹은 거칠게 모방한 인공지능이다. 분석 대상이 되는 텍스트의 의미를 파악하기 위해 의미를 구성하는 최소 단위의 텍스트 구성요소들을 파악한 후, 이 구성요소들에 수학적 연산 과정을 적용시켜 어떤 텍스트 구성요소가 텍스트를 주도적으로 설명하는지, 혹은 어떤 텍스트 구성요소가 알려진 텍스트의 의미를 예측하는 데 강력한 효과를 발휘하는지를 정량화하는 방식이다. 이처럼 텍스트 분석기법을 이용해 텍스트 데이터에서 정보를 추출하고 의미 있는 통계 결과를 얻어내는 것이 바로 ‘텍스트 마이닝’이다.

사회과학자가 손수 프로그래밍해보는 텍스트 분석 알고리즘
이 책은 최근 가장 각광받는 프로그래밍 언어이자 오픈소스 프로그램인 R을 이용해 텍스트 마이닝’을 해내는 실제적인 방법을 안내한다. R은 각종 통계분석기법들이 패키지로 공개되어 있고, 텍스트 데이터를 직관적이고 효율적으로 처리할 수 있는 뛰어난 라이브러리들이 계속해서 추가되고 있다. 통계 결과를 그래프나 단어구름 등으로 손쉽게 시각화할 수도 있다. 그리고 이 모두가 무료다. 이런 까닭으로 R은 사회과학 연구에 텍스트 마이닝을 적용하는 데 더없이 좋은 새 도구로 사용되고 있다. 이 책은 다양한 데이터 마이닝 기법과 데이터 처리 방법을 소개하고 이를 구현하는 R 프로그래밍 코드를 첫 줄부터 마지막 줄까지 세심하게 설명했다.
이 책에서 다루는 텍스트 처리기법들은 타당한 근거 위에서 학문적 신뢰성을 획득한 방법이다. 현재 언론학, 정치학, 사회학, 컴퓨터공학, 통계학 등의 학술논문에서 소개되거나 해당 분과의 학술적 주장을 뒷받침하는 자료로서 효용을 인정받고 있다. 빠르게 변화하는 디지털시대 학문 환경 속에서 더욱 새롭고 효율적인 분석기법이 속속 제안되겠지만, 이 책에서 소개하는 기본 개념과 모형 구성의 기본 패러다임은 크게 바뀌지 않을 것으로 전망된다. 특히 수년간 R를 이용한 텍스트 분석 워크숍을 진행해왔으며 스스로 R를 연구에 이용하고 있기도 한 저자의 경험은 이 책이 사회과학 연구자와 학생들의 눈높이와 필요에 맞춤하게 서술되도록 했다. 기초 개념과 프로그래밍을 요령 있게 습득할 수 있는 이 책은 나날이 새로워지는 데이터 분석기법을 익히는 데 견고한 바탕이 될 것이다.

머리말 : R, 대용량 텍스트에 대한 체계적 분석도구 1부 텍스트 데이터랑 무엇인가? 01 텍스트 데이터로 파악하기 2부 텍스트 데이터 사전처리 01 텍스트 분석을 위한 기초적 R 함수 02 텍스트 분석을 위한 R의 베이스 함수 03 텍스트 분석을 위한 Striner 라이브러리 함수 04 말뭉치 텍스트 데이터 사전처리 05 한국어 텍스트 데이터 처리 06 품사분석 3부 텍스트 데이터 분석 및 결과 제시 01 텍스트 데이터에 대한 기술통계 분석 02 토픽모형 03 감정분석 4부 마무리 01 R를 활용한 온라인 데이터 수집 소개 02 맺음말 참고문헌 찾아보기 주제어

저자 소개

저자 백영민

연세대학교 신문방송학과를 졸업하고 서울대학교 언론정보학과에서 석사학위를 받았다. 2011년 미국 펜실베이니아 대학교 아넨버그 스쿨에서 박사학위를 받았다. 한국과학기술원(KAIST) 조교수를 지내고 현재 연세대학교 언론홍보영상학부 부교수로 재직 중이다.
Journal of Communication, Communication Research, New Media & Society, Journal of Broadcasting & Electronic Media, Health Communication, PLOS ONE, American Pol...

작가의 다른 작품