R을 사용한 의사결정나무 분석 (Decision tree analysis in R)

다음 달에 연체를 할 카드 가입 회원은 누구일까? 약정이 끝나고 이탈할 휴대전화 가입 고객은 누구일까? 타이타닉 호에서 살아남을 사람은 누구일까?  등등 분류 및 예측은 데이터 분석의 중요한 카테고리 중 하나이면서, 실제 비즈니스에서도 많이 필요로 하는 분야입니다.

하지만 예측 방법이 정교하고 복잡해질 수록 이해관계자에 대한 커뮤니케이션 코스트도 같이 올라가기 마련이죠. 그래서 이번 포스팅에서는 분류 및 예측을 위한 다양한 데이터 지도학습 기법 중 가장 직관적으로 이해할 수 있는 의사결정나무에 대해 소개해 보려고 합니다.

의사결정나무 (Decision Tree)란?

의사결정 나무란 기계학습 중 하나로 특정 항목에 대한 의사 결정 규칙 (Decision rule)을 나무 형태로 분류해 나가는 분석 기법을 말합니다. 예를 들어, 타이타닉 호 탑승자의 성별, 나이, 자녀의 수를 이용해서 생존 확률을 아래와 같이 구분해 나가는 것이죠.

출처: 위키피디아
출처: 위키피디아

R을 사용한 의사결정나무 분석 (Decision tree analysis in R) 더보기