R을 사용한 t-test – 두 그룹 간 평균 차이가 유의미 한 지를 비교해 보자.

예전 포스팅을 통해 3개 이상의 집단이 있을 때 집단 별 차이가 의미가 있는지를 확인해 보는 일원배치 분산분석(ANOVA)에 대해 알아보았습니다.

이번 포스팅에서는 여러 집단 별 차이가 아니라 두 개의 집단 간 차이가 의미가 있는지를 확인해 보는 t-test 를 R에서 실행하는 방법을 정리해 보겠습니다.

t_distribution
t-test에서 사용하는 Student’s T-distribution, 소스: xkcd.com

R을 사용한 t-test – 두 그룹 간 평균 차이가 유의미 한 지를 비교해 보자. 더보기

초보 데이터 분석가(Data scientist)가 자주 하는 네 가지 실수들

동시대를 사는 직장인이라면 누구나 한번쯤은 엑셀을 만져본 경험이 있을 것입니다. 엑셀 기능에 익숙해 지고, 점점 다양한 함수를 배워서 숫자를 좀 만지다 보면, 왠지 의미있는 무언가를 분석할 수 있을 것 같아 설레기도 하죠.

9d0e5d32dd9f6bfec02d76f59e49df0e

오늘은 이렇게 데이터 분석을 시작하시는 분들이 많이 하는 실수들, 그리고 이러한 실수를 피하는 법에 대해 이야기 해보려고 합니다.

1. 상관관계는 인과관계가 아니다.

초보 데이터 분석가(Data scientist)가 자주 하는 네 가지 실수들 더보기

데이터 분석가(Data scientist)에게 꼭 필요한 4가지 역량

Data scientist?

빅데이터의 시대라고들 합니다. 최근 몇 년 간 데이터 저장 및 처리 비용이 엄청나게 낮아지면서 생성되는 데이터의 종류, 양이 무척이나 다양해졌습니다.

데이터 분석가, 혹은 데이터 싸이언티스트라고 불리우는 직업군이 주목을 받게 된 것도 이러한 배경에서 데이터 분석을 통해 무궁무진한 비즈니스 기회를 찾아낼 수 있기 때문일 것입니다.

Job market에서도 Data scientist에 대한 수요가 점점 커짐에 따라 이들의 몸값도 올라가는 추세입니다.  Harvard Business Review에서는 수년 전에 이미 Data scientist를 “The sexist job in the 21st century“로 규정하면서, 2020년대가 되면 특정 영역에서는 Data scientist에 대한 수요가 공급을 훨씬 초과하는 현상이 발생할 것이라고 예측한 바 있습니다.

이렇게 핫한 직업군이기 때문에 종종 저에게 데이터 싸이언티스트가 되려면 어떤 분야의 지식, 기술이 필요한지 물어보시는 분들이 계시는데요, 이 글에서 데이터 분석 분야에 뛰어들기(?)위해서는 어떠한 스킬셋이 필요한지를 정리해 보도록 하겠습니다.

참고로, 데이터 싸이언티스트와 데이터 애널리스트, 데이터 엔지니어, 비즈니스 애널리스트 등 데이터 분석 관련 직업을 상세하게 구분하는 경우도 있지만, 이 글에서는 기업에서 데이터를 분석하는 직업을 가진 사람을 통칭하여 “데이터 분석가”라고 부르겠습니다.

data scientist : before and now
소스: www.techjuice.pk

데이터 분석가, 어떤 일을 하나?

기업 마다 조금씩 다르겠지만, 데이터 분석가의 가장 중요한 역할은 의사결정자가 data-informed decision을 할 수 있도록 적절한 시기에 정보를 제공하는 역할일 것입니다.

여기서의 정보는 기술 통계적인 데이터(평균, 합계 등)에서 부터, 보다 복잡한 현상을 해석하고 예측하는 모델에 이르기 까지 다양합니다. 데이터 분석가의 전문성이 높아질 수록 보다 정교하면서도 설명력/예측력이 높은 모델을 제공할 수 있겠죠.

좀 더 구체적으로 라이엇 게임즈를 기준으로 이야기 해 보겠습니다.

제가 속해 있는 비즈니스 애널리틱스(Business Analytics) 팀의 주요 업무 영역은 회사 내 Key business metrics의 모니터링 및 보고,  ad-hoc 데이터 분석 요청 대응, 주요 이슈에 대한 프로젝트 형 분석의 세가지로 구분할 수 있습니다.

데이터 분석가(Data scientist)에게 꼭 필요한 4가지 역량 더보기