근황 업데이트

 

안녕하세요, 홈페이지 주인장 도도미라 입니다.

회사 프로젝트 및 개인적인 상황으로 바쁘다는 합리화를 하면서 블로그를 오랜 기간 방치해 두었습니다만…  그에 비해 너무 많은 방문자들이 매일같이 찾아와 주시고 Contact로도 감사인사를 계속 받는 상황이 민망하여 다시 업데이트를 해보려고 합니다.

굳이 변명을 해보자면…
저는 굳이 따지자면 평가 기준이 높고 깐깐한 편입니다. (개인적으로 요즘 시대에 단점이라는 걸 인정합니다.)
그래서 포스팅 하나라도 하려면 제 스스로 만족할 수준이 되어야하기 때문에 글 하나에 대한 스트레스가 너무 크다보니 업데이트를 미루고 그러다 보니 몇개월이 지나버렸네요. 너무 오랜 기간이 지난 것 같아서 다시 시작할 동력도 부족한 상태였구요.

다행히 최근 업로드를 다시 시작할 계기가 생겼습니다.
다음달 부터 패스트캠퍼스라는 교육 전문 기업에서 짧게나마 특강을 하게 되어
머리 속에 산재되어 있던 컨텐츠를 정리할 기회가 생겼고, 강의에 사용된 컨텐츠를 가능한 범위 내에서 공유드리려고 합니다.

그래서 앞으로는…
좀 더 내려놓고 작성하려고 했던 글들을 발행해 보려고 합니다.
R을 사용한 웹 크롤링, 워드클라우드 같은 쉽고 재밌는 데이터 분석에 대한 것들이나, 게임 회사를 다니면서 드는 소고,
데이터 분석을 하면서 실제로 현업에서 경험한 것들까지
다양한 주제에 대해 좀더 편하게 글을 쓰고자 합니다.

그럼, 조만간 새로운 포스팅으로 뵙겠습니다.
방문해 주셔서 고맙습니다.

ps. 혹시 제 블로그에서 다뤄주었으면 하는 주제가 있으면 contact나 댓글로 남겨주세요. 새로운 영웅의견은 언제나 환영이야!!!

R 의사결정나무 깔끔하게 Plotting 하기 – (fancyRpartPlot in R)

지난 포스팅을 통해 R의 의사결정나무 분석 패키지 중 가장 자주 쓰이는 rpart, ctree, party 패키지로 의사결정나무를 만들고, 가지치기를 하고, 예측모델을 만들어 시각화 하는 방법을 정리해 보았습니다.

R의  의사결정나무 분석 패키지의 단점이 하나 있다면 시각화된 Plot의 낮은 가독성에 있습니다. ggplot2(대표적인 시각화 패키지), ggvis(interactive 그래프), rgl(3D 그래프) 등 많은 패키지에서 “fancy”한 그래프를 지원하는 반면 rpart, ctree, party에서 지원하는 그래프 기능은 사실 조금 실망스럽습니다.

그래서 이번 포스팅에서는 의사결정나무를 보다 깔끔하게 시각화 할 수 있게 도와주는 rattle 패키지의 fancyrpartplot 함수에 대해 간단히 소개드리려고 합니다.

또오해영
그냥 rpart 그래프 vs 예쁜 rpart 그래프

R 의사결정나무 깔끔하게 Plotting 하기 – (fancyRpartPlot in R) 더보기

R을 사용한 베이즈 분류/예측 모델 (Naive Bayes classification in R)

베이지언 확률 모델은 전통적인 피셔리언 확률 모델인 빈도주의와 함께 현대 확률 통계학의 중요한 축을 구성하고 있습니다.

빈도주의가 오차범위, 통계적 유의성 검증 등으로 불확실성을 객관적으로 제거해나갈 수 있다고 믿은 반면 베이지언 확률 모델에서는 주관적인 추론을 바탕으로 한 “사전확률”을 추가적인 관측으로 “사후확률”로 업데이트 해 나가는 방법으로 불확실성을 제거해 나가려는 접근 방법을 취합니다.

베이즈 추론을 기반으로 한 방법론의 정확도는 일반적으로 머신러닝의 대표적인 방법인 랜덤포레스트나 트리 분류 방법 보다도 높다고 평가받고 있습니다.

이번 포스팅에서는 베이즈 추론의 기본 개념에 대해 알아보고, R을 통해 나이브 베이지언 방법론에 기반한 분류/예측 모델을 만들어 보는 예제를 소개해 드리려고 합니다.

Bayes Classification R
몬티홀 문제 – 어떤 문을 선택해야 스포츠카를 받을 수 있을까?

R을 사용한 베이즈 분류/예측 모델 (Naive Bayes classification in R) 더보기

R을 사용한 영역형 그래프 그리기 – ggplot2 초급

영역형 그래프도 MS Office에서 많이 사용되는 그래프 중 하나죠.

특히 제품군 별로 매출에 기여하는 정도를 누적해서 시계열로 보여주는 그래프는 성과 분석을 위한 가장 기본적인 그래프라고 해도 과언이 아닙니다.

ggplot2에서는 geom_area라는 간단한 요소를 추가해서 선형 그래프를 만들 수 있습니다. 데이터 셋은 계속 기본 데이터인 airquality 셋을 사용하겠습니다.

R을 사용한 영역형 그래프 그리기 – ggplot2 초급 더보기

R을 사용한 꺽은선형 그래프 그리기 2/2 – ggplot2 초급

지난 포스트를 통해서 ggplot2를 사용해서 선형 그래프를 작성하는 기본 원리에 대해서 알아보았습니다.

이 번 포스트에서는 여러 개의 선형 그래프를 그리는 법,  선형 그래프의 색 및 모양을 조정하는 법, 점을 추가하는 법 등에 대해 알아보겠습니다. airquality 데이터셋을 계속 사용합니다.

R을 사용한 꺽은선형 그래프 그리기 2/2 – ggplot2 초급 더보기