근황 업데이트

 

안녕하세요, 홈페이지 주인장 도도미라 입니다.

회사 프로젝트 및 개인적인 상황으로 바쁘다는 합리화를 하면서 블로그를 오랜 기간 방치해 두었습니다만…  그에 비해 너무 많은 방문자들이 매일같이 찾아와 주시고 Contact로도 감사인사를 계속 받는 상황이 민망하여 다시 업데이트를 해보려고 합니다.

굳이 변명을 해보자면…
저는 굳이 따지자면 평가 기준이 높고 깐깐한 편입니다. (개인적으로 요즘 시대에 단점이라는 걸 인정합니다.)
그래서 포스팅 하나라도 하려면 제 스스로 만족할 수준이 되어야하기 때문에 글 하나에 대한 스트레스가 너무 크다보니 업데이트를 미루고 그러다 보니 몇개월이 지나버렸네요. 너무 오랜 기간이 지난 것 같아서 다시 시작할 동력도 부족한 상태였구요.

다행히 최근 업로드를 다시 시작할 계기가 생겼습니다.
다음달 부터 패스트캠퍼스라는 교육 전문 기업에서 짧게나마 특강을 하게 되어
머리 속에 산재되어 있던 컨텐츠를 정리할 기회가 생겼고, 강의에 사용된 컨텐츠를 가능한 범위 내에서 공유드리려고 합니다.

그래서 앞으로는…
좀 더 내려놓고 작성하려고 했던 글들을 발행해 보려고 합니다.
R을 사용한 웹 크롤링, 워드클라우드 같은 쉽고 재밌는 데이터 분석에 대한 것들이나, 게임 회사를 다니면서 드는 소고,
데이터 분석을 하면서 실제로 현업에서 경험한 것들까지
다양한 주제에 대해 좀더 편하게 글을 쓰고자 합니다.

그럼, 조만간 새로운 포스팅으로 뵙겠습니다.
방문해 주셔서 고맙습니다.

ps. 혹시 제 블로그에서 다뤄주었으면 하는 주제가 있으면 contact나 댓글로 남겨주세요. 새로운 영웅의견은 언제나 환영이야!!!

대표적인 데이터 분석 테크닉 30가지 (1/2)

올림픽은 아니지만 데이터 분석 분야에서도 자주 쓰이는 대표 선수(?)들이 있습니다. 오늘은 대표적으로 많이 사용되는 데이터 분석 방법론 에 대해 공유해 드리려고 합니다.

저도 실무에 많이 사용하는 다양한 기법들이기 때문에 실무자, 혹은 업계에 조인하기 위해 공부하는 분들께 실용적인 포스팅이 되지 않을까 생각해 봅니다.
(보다 자세히 공부하실 분들을 위해 명칭은 모두 영문으로 표기했습니다.)

대표적인 데이터 분석 테크닉 30가지 (1/2) 더보기

R 의사결정나무 깔끔하게 Plotting 하기 – (fancyRpartPlot in R)

지난 포스팅을 통해 R의 의사결정나무 분석 패키지 중 가장 자주 쓰이는 rpart, ctree, party 패키지로 의사결정나무를 만들고, 가지치기를 하고, 예측모델을 만들어 시각화 하는 방법을 정리해 보았습니다.

R의  의사결정나무 분석 패키지의 단점이 하나 있다면 시각화된 Plot의 낮은 가독성에 있습니다. ggplot2(대표적인 시각화 패키지), ggvis(interactive 그래프), rgl(3D 그래프) 등 많은 패키지에서 “fancy”한 그래프를 지원하는 반면 rpart, ctree, party에서 지원하는 그래프 기능은 사실 조금 실망스럽습니다.

그래서 이번 포스팅에서는 의사결정나무를 보다 깔끔하게 시각화 할 수 있게 도와주는 rattle 패키지의 fancyrpartplot 함수에 대해 간단히 소개드리려고 합니다.

또오해영
그냥 rpart 그래프 vs 예쁜 rpart 그래프

R 의사결정나무 깔끔하게 Plotting 하기 – (fancyRpartPlot in R) 더보기

R을 사용한 의사결정나무 분석 (Decision tree analysis in R)

다음 달에 연체를 할 카드 가입 회원은 누구일까? 약정이 끝나고 이탈할 휴대전화 가입 고객은 누구일까? 타이타닉 호에서 살아남을 사람은 누구일까?  등등 분류 및 예측은 데이터 분석의 중요한 카테고리 중 하나이면서, 실제 비즈니스에서도 많이 필요로 하는 분야입니다.

하지만 예측 방법이 정교하고 복잡해질 수록 이해관계자에 대한 커뮤니케이션 코스트도 같이 올라가기 마련이죠. 그래서 이번 포스팅에서는 분류 및 예측을 위한 다양한 데이터 지도학습 기법 중 가장 직관적으로 이해할 수 있는 의사결정나무에 대해 소개해 보려고 합니다.

의사결정나무 (Decision Tree)란?

의사결정 나무란 기계학습 중 하나로 특정 항목에 대한 의사 결정 규칙 (Decision rule)을 나무 형태로 분류해 나가는 분석 기법을 말합니다. 예를 들어, 타이타닉 호 탑승자의 성별, 나이, 자녀의 수를 이용해서 생존 확률을 아래와 같이 구분해 나가는 것이죠.

출처: 위키피디아
출처: 위키피디아

R을 사용한 의사결정나무 분석 (Decision tree analysis in R) 더보기

R을 사용한 영역형 그래프 그리기 – ggplot2 초급

영역형 그래프도 MS Office에서 많이 사용되는 그래프 중 하나죠.

특히 제품군 별로 매출에 기여하는 정도를 누적해서 시계열로 보여주는 그래프는 성과 분석을 위한 가장 기본적인 그래프라고 해도 과언이 아닙니다.

ggplot2에서는 geom_area라는 간단한 요소를 추가해서 선형 그래프를 만들 수 있습니다. 데이터 셋은 계속 기본 데이터인 airquality 셋을 사용하겠습니다.

R을 사용한 영역형 그래프 그리기 – ggplot2 초급 더보기