> 도서안내 > 분야별 도서
R 기반 데이터 과학: 타이디버스(tidyverse) 접근
정상가 30,000원
판매가격 27,000원
저자 백영민
발행일 2018년 5월 15일
사이즈 B5
쪽수 472쪽
ISBN 978-89-5566-213-9 93310
수 량
  
스크랩
 
지은이 소개
백영민
연세대학교 신문방송학과를 졸업하고 서울대학교 언론정보학과에서 석사 학위를 받았다. 2011년 미국 펜실베이니아 대학교 아넨버그 스쿨(Annenberg School for Communication)에서 박사 학위를 받았다. 한국과학기술원(KAIST) 조교수를 지내고 현재 연세대학교 언론홍보영상학부 부교수로 재직 중이다. 주된 연구 관심사는 여론조사 및 수용자 조사, 계량적 연구방법으로 PLOS ONE, Journal of Communication, Communication Research, New Media & Society, Journal of Broadcasting and Electronic Media, American Politics Research, 〈한국언론학보〉 등 여러 학술지에 논문을 게재하였다. 지은 책으로 《R을 이용한 다층모형》, 《R를 이용한 사회과학데이터 분석: 기초편》, 《R를 이용한 사회과학데이터 분석: 응용편》, 《R를 이용한 사회과학데이터 분석: 구조방정식모형 분석》, 《R를 이용한 텍스트 마이닝》 등이 있다. 옮긴 책으로는 《국민의 선택: 대통령 선거 캠페인 기간에 유권자는 지지 후보를 어떻게 결정하는가?》, 《수학적 커뮤니케이션 이론》, 《포퓰리즘》 등이 있다.
홈페이지 https://sites.google.com/site/ymbaek/
책 소개

데이터 관리·분석의 새로운 세계를 보여주는 타이디버스 안내서!


타이디버스(tidyverse)란, ‘타이디데이터(tidy data) 형태를 데이터 분석 및 시각화의 표준으로 하는, 데이터 접근법들로 구성된 세계’라고 볼 수 있다. 타이디데이터는 3가지 규칙을 지닌다. ‘① 하나의 변수는 하나의 세로줄을 형성한다. ② 하나의 사례는 하나의 가로줄을 형성한다. ③ 하나의 변수의 종류별로 하나의 표를 형성한다’가 그것이다. 사실 이 3가지 규칙은 그리 놀라운 것은 아니다. 일반적으로 우리가 접하는 데이터는 대개 이 규칙들을 따르기 때문이다. 그러나 문제는 데이터 과학에서 다루는 적지 않은 데이터들이 이 규칙을 전면적으로 혹은 부분적으로 따르지 않은 채 ‘정리되지 않은 데이터(uncleaned data)’ 혹은 ‘지저분한 데이터(messy data)’로 남아 있으며, 그로 인해 실질적인 데이터 분석이 이루어지지 못한다는 점이다.
이 책은 연구자들로 하여금 정리되지 않은 방대한 양의 데이터를 위의 3가지 규칙에 따라 기술통계분석, 모형추정, 분석결과의 시각화를 할 수 있는 형태로 정리하여 타이디데이터 형태로 정리하는 방법을 안내해준다. 아울러 타이디버스 라이브러리의 여러 함수들과 그 활용방법을 소개함으로써 독자들이 효율적·효과적으로 데이터를 관리·분석하고 실질적인 분석결과를 도출할 수 있도록 이끌어준다 !

 

 


R 기반 데이터 과학의 진보, 타이디버스 접근법!


오늘날 R 이용환경은 급속하게 변화하고 있다. 그러나 환경이 변했다고 해서 R을 이용하는 것이 더 어려워진 것은 아니다. R 환경은 더 많은 양의 데이터, 더 다양한 형태의 데이터를 보다 쉽게 다루고 분석할 수 있도록 변해가고 있으며, 이 발전적 변화를 주도하고 있는 패키지가 바로 ‘타이디버스(tidyverse)’이다.
‘타이디버스 접근법’을 쓰기 위해 기존의 R 프로그래밍 습관을 버릴 필요는 없다. 상황에 따라서는 타이디버스 접근법을 따르는 것보다 R 베이스에 기반해 데이터를 분석하는 것이 더 효율적이기도 하다. 그러나 데이터가 크고 복잡하며, 정리되지 않은 지저분한 형태로 존재할 때 타이디버스 접근법은 매우 위력적이다!

차례

PART 1 들어가며


CHAPTER 01 R과 R Studio 설치 안내
CHAPTER 02 타이디버스 라이브러리와 타이디데이터(tidy data)
CHAPTER 03 본서에서 사용된 R 라이브러리
CHAPTER 04 기본적인 R 사용법과 R 베이스 함수들

 

 

PART 2 타이디버스 라이브러리 함수들을 활용한 데이터 관리


CHAPTER 01 데이터 관리
CHAPTER 02 변수 관리
CHAPTER 03 데이터 형태 변환

 

 

PART 3 기술통계분석 및 분석결과 시각화


CHAPTER 01 count() 함수를 이용한 빈도분석 및 분석결과의 시각화
CHAPTER 02 summarize_*() 함수를 이용한 기술통계분석 및 분석결과의 시각화

 

 

PART 4 일반선형모형(GLM) 추정


CHAPTER 01 종속변수와 독립변수, 두 변수의 관계를 다루는 통계기법
CHAPTER 02 분산분석(ANOVA)과 공분산분석(ANCOVA)
CHAPTER 03 회귀분석: 종속변수가 정규분포를 갖는 경우
CHAPTER 04 회귀분석: 종속변수가 비정규분포를 갖는 경우

 

 

PART 5 개념측정의 신뢰도와 타당도,그리고 데이터의 축약


CHAPTER 01 측정의 신뢰도와 타당도
CHAPTER 02 군집분석(비지도 기계학습)

 

 

PART 6 마무리


CHAPTER 01 비정형 텍스트 데이터 소개
CHAPTER 02 기타 사항들

 

 

 

참고문헌
함수 찾아보기