데이터 전처리에 대한 모든 것

데이터 분석의 단계 중 가장 많은 시간이 소요되는 단계가 바로 Exploratory Data Analysis 단계입니다. Forbes에서 인용한 CrowdFlower의 설문 결과에 따르면 데이터 분석가는 업무 시간 중 80%정도를 데이터 수집 및 전처리 과정에 사용한다고 합니다.
(하지만 동일 설문에서 데이터 분석 업무 중 가장 싫은 단계로 꼽히기도 했다죠.)

time-1200x511

데이터 전처리에 대한 모든 것 더보기

R 초보를 위한 데이터 클린징 실습

R 데이터 클린징
소스: www.linkedin.com

R은 엑셀과 달리 데이터를 셀 단위로 확인하면서 변경하기 귀찮은 언어입니다. 초보자의 경우 가급적 분석에 적합한 구조로 데이터를 변경한 다음 R에 Import 하는 것을 추천드리지만, 가끔 애매한 경우가 생깁니다.

그중 하나가 웹에서 데이터를 받는 경우인데요, 오늘은 롤 인벤에서 선수들 경기 전적을 다운로드 받아서 간단하게 클린징 실습을 해 보도록 하겠습니다.

클린징 한 데이터는 ggplot2를 사용해서 팀 별 승패 및 KDA 분포를 확인하는 탐색적 데이터 분석(Exploratory Data Analysis)에 사용할 예정입니다. 목표에 맞게 데이터를 가공해 봅시다.

R 초보를 위한 데이터 클린징 실습 더보기