대표적인 데이터 분석 테크닉 30가지 (1/2)

올림픽은 아니지만 데이터 분석 분야에서도 자주 쓰이는 대표 선수(?)들이 있습니다. 오늘은 대표적으로 많이 사용되는 데이터 분석 방법론 에 대해 공유해 드리려고 합니다.

저도 실무에 많이 사용하는 다양한 기법들이기 때문에 실무자, 혹은 업계에 조인하기 위해 공부하는 분들께 실용적인 포스팅이 되지 않을까 생각해 봅니다.
(보다 자세히 공부하실 분들을 위해 명칭은 모두 영문으로 표기했습니다.)

대표적인 데이터 분석 테크닉 30가지 (1/2) 더보기

R을 사용한 의사결정나무 분석 (Decision tree analysis in R)

다음 달에 연체를 할 카드 가입 회원은 누구일까? 약정이 끝나고 이탈할 휴대전화 가입 고객은 누구일까? 타이타닉 호에서 살아남을 사람은 누구일까?  등등 분류 및 예측은 데이터 분석의 중요한 카테고리 중 하나이면서, 실제 비즈니스에서도 많이 필요로 하는 분야입니다.

하지만 예측 방법이 정교하고 복잡해질 수록 이해관계자에 대한 커뮤니케이션 코스트도 같이 올라가기 마련이죠. 그래서 이번 포스팅에서는 분류 및 예측을 위한 다양한 데이터 지도학습 기법 중 가장 직관적으로 이해할 수 있는 의사결정나무에 대해 소개해 보려고 합니다.

의사결정나무 (Decision Tree)란?

의사결정 나무란 기계학습 중 하나로 특정 항목에 대한 의사 결정 규칙 (Decision rule)을 나무 형태로 분류해 나가는 분석 기법을 말합니다. 예를 들어, 타이타닉 호 탑승자의 성별, 나이, 자녀의 수를 이용해서 생존 확률을 아래와 같이 구분해 나가는 것이죠.

출처: 위키피디아
출처: 위키피디아

R을 사용한 의사결정나무 분석 (Decision tree analysis in R) 더보기