R을 사용한 베이즈 분류/예측 모델 (Naive Bayes classification in R)

베이지언 확률 모델은 전통적인 피셔리언 확률 모델인 빈도주의와 함께 현대 확률 통계학의 중요한 축을 구성하고 있습니다.

빈도주의가 오차범위, 통계적 유의성 검증 등으로 불확실성을 객관적으로 제거해나갈 수 있다고 믿은 반면 베이지언 확률 모델에서는 주관적인 추론을 바탕으로 한 “사전확률”을 추가적인 관측으로 “사후확률”로 업데이트 해 나가는 방법으로 불확실성을 제거해 나가려는 접근 방법을 취합니다.

베이즈 추론을 기반으로 한 방법론의 정확도는 일반적으로 머신러닝의 대표적인 방법인 랜덤포레스트나 트리 분류 방법 보다도 높다고 평가받고 있습니다.

이번 포스팅에서는 베이즈 추론의 기본 개념에 대해 알아보고, R을 통해 나이브 베이지언 방법론에 기반한 분류/예측 모델을 만들어 보는 예제를 소개해 드리려고 합니다.

Bayes Classification R
몬티홀 문제 – 어떤 문을 선택해야 스포츠카를 받을 수 있을까?

R을 사용한 베이즈 분류/예측 모델 (Naive Bayes classification in R) 더보기

R을 사용한 의사결정나무 분석 (Decision tree analysis in R)

다음 달에 연체를 할 카드 가입 회원은 누구일까? 약정이 끝나고 이탈할 휴대전화 가입 고객은 누구일까? 타이타닉 호에서 살아남을 사람은 누구일까?  등등 분류 및 예측은 데이터 분석의 중요한 카테고리 중 하나이면서, 실제 비즈니스에서도 많이 필요로 하는 분야입니다.

하지만 예측 방법이 정교하고 복잡해질 수록 이해관계자에 대한 커뮤니케이션 코스트도 같이 올라가기 마련이죠. 그래서 이번 포스팅에서는 분류 및 예측을 위한 다양한 데이터 지도학습 기법 중 가장 직관적으로 이해할 수 있는 의사결정나무에 대해 소개해 보려고 합니다.

의사결정나무 (Decision Tree)란?

의사결정 나무란 기계학습 중 하나로 특정 항목에 대한 의사 결정 규칙 (Decision rule)을 나무 형태로 분류해 나가는 분석 기법을 말합니다. 예를 들어, 타이타닉 호 탑승자의 성별, 나이, 자녀의 수를 이용해서 생존 확률을 아래와 같이 구분해 나가는 것이죠.

출처: 위키피디아
출처: 위키피디아

R을 사용한 의사결정나무 분석 (Decision tree analysis in R) 더보기

R을 사용한 시계열 분석 – ARIMA 모형을 통한 미래 추세 예측

데이터 분석 담당자가 자주 하는 분석의 종류로 시계열 분석이 있습니다. 보통 분기/반기/년간 단위로 다음 지표를 예측한다거나, 주간/월간 단위로 지표를 리뷰하며 트렌드에 이상치는 없는 지 모니터링 하는 데 사용되는 분석 기법입니다.

시계열 분석은 주가 전망, 수요 예측 등에도 사용되기 때문에 그 기법이 매우 다양하게 발전되어 있습니다. 이번 포스트에서는 그나마 그 중에서 가장 쉽게 사용할 수 있는 ARIMA 모형을 사용해서 시계열 분석을 해보려고 합니다.

시계열 분석

R을 사용한 시계열 분석 – ARIMA 모형을 통한 미래 추세 예측 더보기

R을 사용한 t-test – 두 그룹 간 평균 차이가 유의미 한 지를 비교해 보자.

예전 포스팅을 통해 3개 이상의 집단이 있을 때 집단 별 차이가 의미가 있는지를 확인해 보는 일원배치 분산분석(ANOVA)에 대해 알아보았습니다.

이번 포스팅에서는 여러 집단 별 차이가 아니라 두 개의 집단 간 차이가 의미가 있는지를 확인해 보는 t-test 를 R에서 실행하는 방법을 정리해 보겠습니다.

t_distribution
t-test에서 사용하는 Student’s T-distribution, 소스: xkcd.com

R을 사용한 t-test – 두 그룹 간 평균 차이가 유의미 한 지를 비교해 보자. 더보기

R을 사용한 영역형 그래프 그리기 – ggplot2 초급

영역형 그래프도 MS Office에서 많이 사용되는 그래프 중 하나죠.

특히 제품군 별로 매출에 기여하는 정도를 누적해서 시계열로 보여주는 그래프는 성과 분석을 위한 가장 기본적인 그래프라고 해도 과언이 아닙니다.

ggplot2에서는 geom_area라는 간단한 요소를 추가해서 선형 그래프를 만들 수 있습니다. 데이터 셋은 계속 기본 데이터인 airquality 셋을 사용하겠습니다.

R을 사용한 영역형 그래프 그리기 – ggplot2 초급 더보기