데이터 전처리에 대한 모든 것

데이터 분석의 단계 중 가장 많은 시간이 소요되는 단계가 바로 Exploratory Data Analysis 단계입니다. Forbes에서 인용한 CrowdFlower의 설문 결과에 따르면 데이터 분석가는 업무 시간 중 80%정도를 데이터 수집 및 전처리 과정에 사용한다고 합니다.
(하지만 동일 설문에서 데이터 분석 업무 중 가장 싫은 단계로 꼽히기도 했다죠.)

time-1200x511

데이터 전처리에 대한 모든 것 더보기

R을 사용한 베이즈 분류/예측 모델 (Naive Bayes classification in R)

베이지언 확률 모델은 전통적인 피셔리언 확률 모델인 빈도주의와 함께 현대 확률 통계학의 중요한 축을 구성하고 있습니다.

빈도주의가 오차범위, 통계적 유의성 검증 등으로 불확실성을 객관적으로 제거해나갈 수 있다고 믿은 반면 베이지언 확률 모델에서는 주관적인 추론을 바탕으로 한 “사전확률”을 추가적인 관측으로 “사후확률”로 업데이트 해 나가는 방법으로 불확실성을 제거해 나가려는 접근 방법을 취합니다.

베이즈 추론을 기반으로 한 방법론의 정확도는 일반적으로 머신러닝의 대표적인 방법인 랜덤포레스트나 트리 분류 방법 보다도 높다고 평가받고 있습니다.

이번 포스팅에서는 베이즈 추론의 기본 개념에 대해 알아보고, R을 통해 나이브 베이지언 방법론에 기반한 분류/예측 모델을 만들어 보는 예제를 소개해 드리려고 합니다.

Bayes Classification R
몬티홀 문제 – 어떤 문을 선택해야 스포츠카를 받을 수 있을까?

R을 사용한 베이즈 분류/예측 모델 (Naive Bayes classification in R) 더보기

R을 사용한 시계열 분석 – ARIMA 모형을 통한 미래 추세 예측

데이터 분석 담당자가 자주 하는 분석의 종류로 시계열 분석이 있습니다. 보통 분기/반기/년간 단위로 다음 지표를 예측한다거나, 주간/월간 단위로 지표를 리뷰하며 트렌드에 이상치는 없는 지 모니터링 하는 데 사용되는 분석 기법입니다.

시계열 분석은 주가 전망, 수요 예측 등에도 사용되기 때문에 그 기법이 매우 다양하게 발전되어 있습니다. 이번 포스트에서는 그나마 그 중에서 가장 쉽게 사용할 수 있는 ARIMA 모형을 사용해서 시계열 분석을 해보려고 합니다.

시계열 분석

R을 사용한 시계열 분석 – ARIMA 모형을 통한 미래 추세 예측 더보기

R을 사용한 t-test – 두 그룹 간 평균 차이가 유의미 한 지를 비교해 보자.

예전 포스팅을 통해 3개 이상의 집단이 있을 때 집단 별 차이가 의미가 있는지를 확인해 보는 일원배치 분산분석(ANOVA)에 대해 알아보았습니다.

이번 포스팅에서는 여러 집단 별 차이가 아니라 두 개의 집단 간 차이가 의미가 있는지를 확인해 보는 t-test 를 R에서 실행하는 방법을 정리해 보겠습니다.

t_distribution
t-test에서 사용하는 Student’s T-distribution, 소스: xkcd.com

R을 사용한 t-test – 두 그룹 간 평균 차이가 유의미 한 지를 비교해 보자. 더보기

R을 사용한 꺽은선형 그래프 그리기 2/2 – ggplot2 초급

지난 포스트를 통해서 ggplot2를 사용해서 선형 그래프를 작성하는 기본 원리에 대해서 알아보았습니다.

이 번 포스트에서는 여러 개의 선형 그래프를 그리는 법,  선형 그래프의 색 및 모양을 조정하는 법, 점을 추가하는 법 등에 대해 알아보겠습니다. airquality 데이터셋을 계속 사용합니다.

R을 사용한 꺽은선형 그래프 그리기 2/2 – ggplot2 초급 더보기