데이터 전처리에 대한 모든 것

데이터 분석의 단계 중 가장 많은 시간이 소요되는 단계가 바로 Exploratory Data Analysis 단계입니다. Forbes에서 인용한 CrowdFlower의 설문 결과에 따르면 데이터 분석가는 업무 시간 중 80%정도를 데이터 수집 및 전처리 과정에 사용한다고 합니다.
(하지만 동일 설문에서 데이터 분석 업무 중 가장 싫은 단계로 꼽히기도 했다죠.)

time-1200x511

데이터 전처리에 대한 모든 것 더보기

대표적인 데이터 분석 테크닉 30가지 (1/2)

올림픽은 아니지만 데이터 분석 분야에서도 자주 쓰이는 대표 선수(?)들이 있습니다. 오늘은 대표적으로 많이 사용되는 데이터 분석 방법론 에 대해 공유해 드리려고 합니다.

저도 실무에 많이 사용하는 다양한 기법들이기 때문에 실무자, 혹은 업계에 조인하기 위해 공부하는 분들께 실용적인 포스팅이 되지 않을까 생각해 봅니다.
(보다 자세히 공부하실 분들을 위해 명칭은 모두 영문으로 표기했습니다.)

대표적인 데이터 분석 테크닉 30가지 (1/2) 더보기

R을 사용한 베이즈 분류/예측 모델 (Naive Bayes classification in R)

베이지언 확률 모델은 전통적인 피셔리언 확률 모델인 빈도주의와 함께 현대 확률 통계학의 중요한 축을 구성하고 있습니다.

빈도주의가 오차범위, 통계적 유의성 검증 등으로 불확실성을 객관적으로 제거해나갈 수 있다고 믿은 반면 베이지언 확률 모델에서는 주관적인 추론을 바탕으로 한 “사전확률”을 추가적인 관측으로 “사후확률”로 업데이트 해 나가는 방법으로 불확실성을 제거해 나가려는 접근 방법을 취합니다.

베이즈 추론을 기반으로 한 방법론의 정확도는 일반적으로 머신러닝의 대표적인 방법인 랜덤포레스트나 트리 분류 방법 보다도 높다고 평가받고 있습니다.

이번 포스팅에서는 베이즈 추론의 기본 개념에 대해 알아보고, R을 통해 나이브 베이지언 방법론에 기반한 분류/예측 모델을 만들어 보는 예제를 소개해 드리려고 합니다.

Bayes Classification R
몬티홀 문제 – 어떤 문을 선택해야 스포츠카를 받을 수 있을까?

R을 사용한 베이즈 분류/예측 모델 (Naive Bayes classification in R) 더보기

R을 사용한 의사결정나무 분석 (Decision tree analysis in R)

다음 달에 연체를 할 카드 가입 회원은 누구일까? 약정이 끝나고 이탈할 휴대전화 가입 고객은 누구일까? 타이타닉 호에서 살아남을 사람은 누구일까?  등등 분류 및 예측은 데이터 분석의 중요한 카테고리 중 하나이면서, 실제 비즈니스에서도 많이 필요로 하는 분야입니다.

하지만 예측 방법이 정교하고 복잡해질 수록 이해관계자에 대한 커뮤니케이션 코스트도 같이 올라가기 마련이죠. 그래서 이번 포스팅에서는 분류 및 예측을 위한 다양한 데이터 지도학습 기법 중 가장 직관적으로 이해할 수 있는 의사결정나무에 대해 소개해 보려고 합니다.

의사결정나무 (Decision Tree)란?

의사결정 나무란 기계학습 중 하나로 특정 항목에 대한 의사 결정 규칙 (Decision rule)을 나무 형태로 분류해 나가는 분석 기법을 말합니다. 예를 들어, 타이타닉 호 탑승자의 성별, 나이, 자녀의 수를 이용해서 생존 확률을 아래와 같이 구분해 나가는 것이죠.

출처: 위키피디아
출처: 위키피디아

R을 사용한 의사결정나무 분석 (Decision tree analysis in R) 더보기

R을 사용한 시계열 분석 – ARIMA 모형을 통한 미래 추세 예측

데이터 분석 담당자가 자주 하는 분석의 종류로 시계열 분석이 있습니다. 보통 분기/반기/년간 단위로 다음 지표를 예측한다거나, 주간/월간 단위로 지표를 리뷰하며 트렌드에 이상치는 없는 지 모니터링 하는 데 사용되는 분석 기법입니다.

시계열 분석은 주가 전망, 수요 예측 등에도 사용되기 때문에 그 기법이 매우 다양하게 발전되어 있습니다. 이번 포스트에서는 그나마 그 중에서 가장 쉽게 사용할 수 있는 ARIMA 모형을 사용해서 시계열 분석을 해보려고 합니다.

시계열 분석

R을 사용한 시계열 분석 – ARIMA 모형을 통한 미래 추세 예측 더보기