데이터 전처리에 대한 모든 것

데이터 분석의 단계 중 가장 많은 시간이 소요되는 단계가 바로 Exploratory Data Analysis 단계입니다. Forbes에서 인용한 CrowdFlower의 설문 결과에 따르면 데이터 분석가는 업무 시간 중 80%정도를 데이터 수집 및 전처리 과정에 사용한다고 합니다.
(하지만 동일 설문에서 데이터 분석 업무 중 가장 싫은 단계로 꼽히기도 했다죠.)

time-1200x511

데이터 전처리에 대한 모든 것 더보기

대표적인 데이터 분석 테크닉 30가지 (1/2)

올림픽은 아니지만 데이터 분석 분야에서도 자주 쓰이는 대표 선수(?)들이 있습니다. 오늘은 대표적으로 많이 사용되는 데이터 분석 방법론 에 대해 공유해 드리려고 합니다.

저도 실무에 많이 사용하는 다양한 기법들이기 때문에 실무자, 혹은 업계에 조인하기 위해 공부하는 분들께 실용적인 포스팅이 되지 않을까 생각해 봅니다.
(보다 자세히 공부하실 분들을 위해 명칭은 모두 영문으로 표기했습니다.)

대표적인 데이터 분석 테크닉 30가지 (1/2) 더보기

R 의사결정나무 깔끔하게 Plotting 하기 – (fancyRpartPlot in R)

지난 포스팅을 통해 R의 의사결정나무 분석 패키지 중 가장 자주 쓰이는 rpart, ctree, party 패키지로 의사결정나무를 만들고, 가지치기를 하고, 예측모델을 만들어 시각화 하는 방법을 정리해 보았습니다.

R의  의사결정나무 분석 패키지의 단점이 하나 있다면 시각화된 Plot의 낮은 가독성에 있습니다. ggplot2(대표적인 시각화 패키지), ggvis(interactive 그래프), rgl(3D 그래프) 등 많은 패키지에서 “fancy”한 그래프를 지원하는 반면 rpart, ctree, party에서 지원하는 그래프 기능은 사실 조금 실망스럽습니다.

그래서 이번 포스팅에서는 의사결정나무를 보다 깔끔하게 시각화 할 수 있게 도와주는 rattle 패키지의 fancyrpartplot 함수에 대해 간단히 소개드리려고 합니다.

또오해영
그냥 rpart 그래프 vs 예쁜 rpart 그래프

R 의사결정나무 깔끔하게 Plotting 하기 – (fancyRpartPlot in R) 더보기

R을 사용한 베이즈 분류/예측 모델 (Naive Bayes classification in R)

베이지언 확률 모델은 전통적인 피셔리언 확률 모델인 빈도주의와 함께 현대 확률 통계학의 중요한 축을 구성하고 있습니다.

빈도주의가 오차범위, 통계적 유의성 검증 등으로 불확실성을 객관적으로 제거해나갈 수 있다고 믿은 반면 베이지언 확률 모델에서는 주관적인 추론을 바탕으로 한 “사전확률”을 추가적인 관측으로 “사후확률”로 업데이트 해 나가는 방법으로 불확실성을 제거해 나가려는 접근 방법을 취합니다.

베이즈 추론을 기반으로 한 방법론의 정확도는 일반적으로 머신러닝의 대표적인 방법인 랜덤포레스트나 트리 분류 방법 보다도 높다고 평가받고 있습니다.

이번 포스팅에서는 베이즈 추론의 기본 개념에 대해 알아보고, R을 통해 나이브 베이지언 방법론에 기반한 분류/예측 모델을 만들어 보는 예제를 소개해 드리려고 합니다.

Bayes Classification R
몬티홀 문제 – 어떤 문을 선택해야 스포츠카를 받을 수 있을까?

R을 사용한 베이즈 분류/예측 모델 (Naive Bayes classification in R) 더보기

R을 사용한 의사결정나무 분석 (Decision tree analysis in R)

다음 달에 연체를 할 카드 가입 회원은 누구일까? 약정이 끝나고 이탈할 휴대전화 가입 고객은 누구일까? 타이타닉 호에서 살아남을 사람은 누구일까?  등등 분류 및 예측은 데이터 분석의 중요한 카테고리 중 하나이면서, 실제 비즈니스에서도 많이 필요로 하는 분야입니다.

하지만 예측 방법이 정교하고 복잡해질 수록 이해관계자에 대한 커뮤니케이션 코스트도 같이 올라가기 마련이죠. 그래서 이번 포스팅에서는 분류 및 예측을 위한 다양한 데이터 지도학습 기법 중 가장 직관적으로 이해할 수 있는 의사결정나무에 대해 소개해 보려고 합니다.

의사결정나무 (Decision Tree)란?

의사결정 나무란 기계학습 중 하나로 특정 항목에 대한 의사 결정 규칙 (Decision rule)을 나무 형태로 분류해 나가는 분석 기법을 말합니다. 예를 들어, 타이타닉 호 탑승자의 성별, 나이, 자녀의 수를 이용해서 생존 확률을 아래와 같이 구분해 나가는 것이죠.

출처: 위키피디아
출처: 위키피디아

R을 사용한 의사결정나무 분석 (Decision tree analysis in R) 더보기