데이터 분석가(Data scientist)에게 꼭 필요한 4가지 역량

Data scientist?

빅데이터의 시대라고들 합니다. 최근 몇 년 간 데이터 저장 및 처리 비용이 엄청나게 낮아지면서 생성되는 데이터의 종류, 양이 무척이나 다양해졌습니다.

데이터 분석가, 혹은 데이터 싸이언티스트라고 불리우는 직업군이 주목을 받게 된 것도 이러한 배경에서 데이터 분석을 통해 무궁무진한 비즈니스 기회를 찾아낼 수 있기 때문일 것입니다.

Job market에서도 Data scientist에 대한 수요가 점점 커짐에 따라 이들의 몸값도 올라가는 추세입니다.  Harvard Business Review에서는 수년 전에 이미 Data scientist를 “The sexist job in the 21st century“로 규정하면서, 2020년대가 되면 특정 영역에서는 Data scientist에 대한 수요가 공급을 훨씬 초과하는 현상이 발생할 것이라고 예측한 바 있습니다.

이렇게 핫한 직업군이기 때문에 종종 저에게 데이터 싸이언티스트가 되려면 어떤 분야의 지식, 기술이 필요한지 물어보시는 분들이 계시는데요, 이 글에서 데이터 분석 분야에 뛰어들기(?)위해서는 어떠한 스킬셋이 필요한지를 정리해 보도록 하겠습니다.

참고로, 데이터 싸이언티스트와 데이터 애널리스트, 데이터 엔지니어, 비즈니스 애널리스트 등 데이터 분석 관련 직업을 상세하게 구분하는 경우도 있지만, 이 글에서는 기업에서 데이터를 분석하는 직업을 가진 사람을 통칭하여 “데이터 분석가”라고 부르겠습니다.

data scientist : before and now
소스: www.techjuice.pk

데이터 분석가, 어떤 일을 하나?

기업 마다 조금씩 다르겠지만, 데이터 분석가의 가장 중요한 역할은 의사결정자가 data-informed decision을 할 수 있도록 적절한 시기에 정보를 제공하는 역할일 것입니다.

여기서의 정보는 기술 통계적인 데이터(평균, 합계 등)에서 부터, 보다 복잡한 현상을 해석하고 예측하는 모델에 이르기 까지 다양합니다. 데이터 분석가의 전문성이 높아질 수록 보다 정교하면서도 설명력/예측력이 높은 모델을 제공할 수 있겠죠.

좀 더 구체적으로 라이엇 게임즈를 기준으로 이야기 해 보겠습니다.

제가 속해 있는 비즈니스 애널리틱스(Business Analytics) 팀의 주요 업무 영역은 회사 내 Key business metrics의 모니터링 및 보고,  ad-hoc 데이터 분석 요청 대응, 주요 이슈에 대한 프로젝트 형 분석의 세가지로 구분할 수 있습니다.

데이터 분석가(Data scientist)에게 꼭 필요한 4가지 역량 더보기

데이터 분석의 유형 6가지 – 목적에 따라 달라지는 분석 방법

DataAnalysis (1)

데이터 분석의 첫 단계는 “문제 정의”이다.

데이터 분석을 시작하기 전 단계에서 분석을 통해 알고 싶은 것이 “무엇”인지를 구체적으로 명확히 정의하지 않으면 “어떻게” 분석해야 할 지도 알기 어렵다.
문제 정의 단계에서의 목표를 구체적으로 설정하는 것의 중요성은 많은 데이터 분석가들이 주지하고 있지만, 또 하나 이 단계에서 중요하게 생각해야 할 Task가 있다.
바로 “문제 유형 알기”가 그것이다. 내가 해결하고자 하는 문제가 어떤 유형의 문제인지를 알고 있어야 어떤 분석 방법을 사용할 것인지, 어떤 방법은 적당하지 않은지를 알 수 있게 된다. 이 포스팅에서는 데이터 분석 유형에 대해 정리하고, 해결해야 할 유형을 오해하고 있을 때 발생하는 문제를 알아보고자 한다.

1. Descriptive analysis

가장 기본이 되는 분석으로, 주어진 데이터를 요약/집계하여 결과를 도출하는 것이 Descriptive Analysis의 목표가 된다.
이번 달 매출액, 평균 세션 타임, 설문 응답자의 남/녀 비중 등이 이 유형의 분석 결과이다.
이러한 지표들은 Business 관점에서 보면 Bottom line이고, 특히 경영자, 주주 및 여러 이해관계자들이 가장 눈여겨 보는 지표이기 때문에 회사 차원에서 가장 중요한 수치이지만,
과거의 데이터를 단순 계산/집계하여 얻어진 Fact이기 때문에, 분석 결과를 따로 해석하는 과정(So what?, Can we apply this to other population?)을 거치지 않는다. (비즈니스가 아니라 분석 관점에서)

이 단계에서 주로 사용되는 그래프는 Pie chart, Box plot, Bar plot 등이 있으며, 요약 형식의 테이블도 주로 이러한 유형의 분석의 결과물 이다.

2. Exploratory analysis

EDA라고도 불리우는 Exploratory Analysis는 최근 Visualization이 데이터 분석의 화두로 떠오르면서 주목을 받게 된 분석 유형이다.
Exploratory Analysis의 주요 목표는 여러 변수 간 트렌드나 패턴, 관계를 찾는 것인데,
이 분석 역시 통계적 기법을 사용한 모델링이라기 보다는 그래프(주로 Plot)를 통한 사실 확인이 주된 작업이다.

주로 데이터 분석 프로젝트 초기에 가설을 수립하기 위해 수행되기도 한다.
새로운 데이터를 접할 때 마다 여러 변수들 간의 관계를 이리 저리 그래프로 그리다 보면 흥미로운 사실들이 발견되면서 점점 빨려들어(?)가는데,
아래 두가지를 염두하고 있으면 이 단계를 효율적으로 진행할 수 있을 것이다.

A. 분석의 목적을 항상 염두에 두자.

데이터 탐색은 기본적으로 끝이 없는 작업이다. 현실에서 분석하게 되는 데이터들은 다양한 변수들을 가지고 있는데,
각 변수들의 조합, 범주형 변수가 있을 경우 범주 내에서의 조합, 범주형 변수 끼리의 조합 등등 목적없이 파게 되면 끝없이 팔 수 있는 것이 탐색적 데이터 분석이기 때문에, 분석의 목적이 가설 수립인지, 특정 변수들 간의 관계 파악인지, 트렌드 파악인지를 항상 머릿속에 가지고 분석을 진행하는 것을 추천한다.

B. Reproduciblity

변수의 갯수가 많을 경우 데이터 탐색을 위해 그리게 되는 Plot도 늘어나게 된다. 흥미로운 Plot을 발견한 경우 해당 그래프를 다시 생성할 수 있도록 어떤 조건에서 그러한 Plot을 그리게 됬는지를 확인하자.

이 단계에서 주로 사용되는 그래프는 Scatter plot, Bobble chart 시계열 차트 등이 있다.

3. Inferential analysis
샘플 – 모집단 간의 관계를 탐구하는 것이 이 분석 유형의 목적이다.
샘플에서 얻어낸 정보가 모집단에도 적용될 수 있는지를 검토하는 것인데, 이는 자원이 한정되어 있어 샘플 크기를 무한정 늘릴 수 없기 때문에 발생하는 일반적인 문제를 해결하기 위한 분석 유형이다.
“95%의 확률로 모집단의 평균 점수는 80~85점 사이라고 말할 수 있다” , “그룹 A의 성적이 그룹 B보다 유의미하게 높았다”는 식의 결론이 Inferential analysis의 결과 이다.

4. Predictive analysis

머신 러닝(Machine learning), 의사결정나무(Decision Tree) 등 다양한 통계적 기법을 사용하여 미래 혹은 발생하지 않은 어떤 사건에 대한 예측을 하는 것이 Predictive analysis의 주요 목표이다.
“왜” 보다는 “정확한 예측”을 하는 것이 주요 관심사이기 때문에, 특정한 설명 변수가 어떤 매커니즘으로 목표 변수에 영향을 미치는 가에 대한 설명력은 약하다.

예를 들어 금연 성공률과 여러가지 설명 변수들 간의 관계를 분석한다고 가정 하자.
Causal analysis의 목표가 금연 성공률에 영향을 끼치는 변수는 금연 방법 (그냥 끊기, 약물치료, 상담치료, 약물/상담 병행) 및 흡연 기간이다라는 “관계”를 밝혀내는 것이라면,
Predictive analysis의 목표는 직관적으로 금연과 관계 있는 요소 뿐 만 아니라 나이, 직업, 키, 몸무게, 거주 지역 등 사용가능한 변수들을 모두 활용하여 모델의 “예측력”을 높이는 것이다.

최근 Predictive analysis에서 좀 더 나아간 Prescriptive analysis도 주목 받고 있는데,
이 유형의 분석은 예측 모델을 기반으로 어떤 의사결정을 해야 하는지를 “처방”하는 것이 주요 목적이다.
예측 모델 속에 여러 의사 결정 옵션을 변수로 포함시켰다고 보면 이해가 쉬울 것 같다.
Prescriptive model은 어떤 의사 결정을 하느냐에 따라 변하는 결과를 예측해 주기 때문에 이러한 분석을 통해 최적화된 의사 결정을 할 수 있다.

2000년대 초중반 까지 유행했던 Scenario analysis와 유사한 점도 있지만,
Scenario analysis가 비즈니스 인싸이트에 기반하여 만든 정성적인 시나리오를 기반으로 미래를 예측하고 행동 옵션을 제시했다면,
최근의 Prescriptive analytics는 철저하게 수학 모델에 기반하고 있다는 점, 행동 옵션도 모델에 포함시켜 미래를 예측 한다는 점이 차이라고 볼 수 있다.

5. Causal analysis

독립 변수와 종속 변수 간의 인과관계가 있는지 여부를 확인하기 위한 분석이다.
Causal analysis의 특징 중 하나는 실험을 통해 수집된 데이터를 대상으로 한다는 점이다.
주로 독립 변수를 실험대상에 랜덤하게 할당한 후, 그룹 간 실험 전/후의 종속 변수의 변화를 관찰하여 실험 데이터 수집이 이루어 진다.
과거의 단순 관찰 데이터(Observational data)로는  Confounding variable이 있을 가능성을 배제할 수가 없으므로, 인과 관계 여부를 명확하게 밝혀 낼 수가 없기 때문이다.

최근 자주 언급되는 A/B test도 이러한 데이터 수집 방법의 하나라고 볼 수 있다.

선형Regression이 가장 많이 사용되는 분석 방법이며, 변수가 여러개일 경우 Multi variable regression, 변수가 범주형일 경우 Logistics regression을 사용한다.

6. Mechanistic analysis

독립 변수가 어떤 매커니즘으로 종속 변수에 영향을 미치는 지를 분석하는 것으로, 위 6가지 유형 중 가장 노력이 많이 필요한 분석 유형이다.
Causal analysis의 목적이 독립 -종속 변수 간의 “인과 관계 여부”를 밝혀내는 것이었다면,
Mechanistic analysis의 목적은 이에 더해 어떠한 독립 변수가 어떠한 작용을 통해 독립 변수에 그러한 영향을 미치는 지를 이해하는 것이다.
Causal analysis와 동일하게 실험 데이터를 분석 대상으로 한다,

출처
1) Coursera, Managing Data Analysis by Jeff Leek, Brian Caffo, Roger Peng
2) udemy, 10 Different kinds of Graphs for your data (https://blog.udemy.com/different-kinds-of-graphs/)
3) Wikipedia, Predictive analytics (https://en.wikipedia.org/wiki/Predictive_analytics)