데이터 분석의 유형 6가지 – 목적에 따라 달라지는 분석 방법

DataAnalysis (1)

데이터 분석의 첫 단계는 “문제 정의”이다.

데이터 분석을 시작하기 전 단계에서 분석을 통해 알고 싶은 것이 “무엇”인지를 구체적으로 명확히 정의하지 않으면 “어떻게” 분석해야 할 지도 알기 어렵다.
문제 정의 단계에서의 목표를 구체적으로 설정하는 것의 중요성은 많은 데이터 분석가들이 주지하고 있지만, 또 하나 이 단계에서 중요하게 생각해야 할 Task가 있다.
바로 “문제 유형 알기”가 그것이다. 내가 해결하고자 하는 문제가 어떤 유형의 문제인지를 알고 있어야 어떤 분석 방법을 사용할 것인지, 어떤 방법은 적당하지 않은지를 알 수 있게 된다. 이 포스팅에서는 데이터 분석 유형에 대해 정리하고, 해결해야 할 유형을 오해하고 있을 때 발생하는 문제를 알아보고자 한다.

1. Descriptive analysis

가장 기본이 되는 분석으로, 주어진 데이터를 요약/집계하여 결과를 도출하는 것이 Descriptive Analysis의 목표가 된다.
이번 달 매출액, 평균 세션 타임, 설문 응답자의 남/녀 비중 등이 이 유형의 분석 결과이다.
이러한 지표들은 Business 관점에서 보면 Bottom line이고, 특히 경영자, 주주 및 여러 이해관계자들이 가장 눈여겨 보는 지표이기 때문에 회사 차원에서 가장 중요한 수치이지만,
과거의 데이터를 단순 계산/집계하여 얻어진 Fact이기 때문에, 분석 결과를 따로 해석하는 과정(So what?, Can we apply this to other population?)을 거치지 않는다. (비즈니스가 아니라 분석 관점에서)

이 단계에서 주로 사용되는 그래프는 Pie chart, Box plot, Bar plot 등이 있으며, 요약 형식의 테이블도 주로 이러한 유형의 분석의 결과물 이다.

2. Exploratory analysis

EDA라고도 불리우는 Exploratory Analysis는 최근 Visualization이 데이터 분석의 화두로 떠오르면서 주목을 받게 된 분석 유형이다.
Exploratory Analysis의 주요 목표는 여러 변수 간 트렌드나 패턴, 관계를 찾는 것인데,
이 분석 역시 통계적 기법을 사용한 모델링이라기 보다는 그래프(주로 Plot)를 통한 사실 확인이 주된 작업이다.

주로 데이터 분석 프로젝트 초기에 가설을 수립하기 위해 수행되기도 한다.
새로운 데이터를 접할 때 마다 여러 변수들 간의 관계를 이리 저리 그래프로 그리다 보면 흥미로운 사실들이 발견되면서 점점 빨려들어(?)가는데,
아래 두가지를 염두하고 있으면 이 단계를 효율적으로 진행할 수 있을 것이다.

A. 분석의 목적을 항상 염두에 두자.

데이터 탐색은 기본적으로 끝이 없는 작업이다. 현실에서 분석하게 되는 데이터들은 다양한 변수들을 가지고 있는데,
각 변수들의 조합, 범주형 변수가 있을 경우 범주 내에서의 조합, 범주형 변수 끼리의 조합 등등 목적없이 파게 되면 끝없이 팔 수 있는 것이 탐색적 데이터 분석이기 때문에, 분석의 목적이 가설 수립인지, 특정 변수들 간의 관계 파악인지, 트렌드 파악인지를 항상 머릿속에 가지고 분석을 진행하는 것을 추천한다.

B. Reproduciblity

변수의 갯수가 많을 경우 데이터 탐색을 위해 그리게 되는 Plot도 늘어나게 된다. 흥미로운 Plot을 발견한 경우 해당 그래프를 다시 생성할 수 있도록 어떤 조건에서 그러한 Plot을 그리게 됬는지를 확인하자.

이 단계에서 주로 사용되는 그래프는 Scatter plot, Bobble chart 시계열 차트 등이 있다.

3. Inferential analysis
샘플 – 모집단 간의 관계를 탐구하는 것이 이 분석 유형의 목적이다.
샘플에서 얻어낸 정보가 모집단에도 적용될 수 있는지를 검토하는 것인데, 이는 자원이 한정되어 있어 샘플 크기를 무한정 늘릴 수 없기 때문에 발생하는 일반적인 문제를 해결하기 위한 분석 유형이다.
“95%의 확률로 모집단의 평균 점수는 80~85점 사이라고 말할 수 있다” , “그룹 A의 성적이 그룹 B보다 유의미하게 높았다”는 식의 결론이 Inferential analysis의 결과 이다.

4. Predictive analysis

머신 러닝(Machine learning), 의사결정나무(Decision Tree) 등 다양한 통계적 기법을 사용하여 미래 혹은 발생하지 않은 어떤 사건에 대한 예측을 하는 것이 Predictive analysis의 주요 목표이다.
“왜” 보다는 “정확한 예측”을 하는 것이 주요 관심사이기 때문에, 특정한 설명 변수가 어떤 매커니즘으로 목표 변수에 영향을 미치는 가에 대한 설명력은 약하다.

예를 들어 금연 성공률과 여러가지 설명 변수들 간의 관계를 분석한다고 가정 하자.
Causal analysis의 목표가 금연 성공률에 영향을 끼치는 변수는 금연 방법 (그냥 끊기, 약물치료, 상담치료, 약물/상담 병행) 및 흡연 기간이다라는 “관계”를 밝혀내는 것이라면,
Predictive analysis의 목표는 직관적으로 금연과 관계 있는 요소 뿐 만 아니라 나이, 직업, 키, 몸무게, 거주 지역 등 사용가능한 변수들을 모두 활용하여 모델의 “예측력”을 높이는 것이다.

최근 Predictive analysis에서 좀 더 나아간 Prescriptive analysis도 주목 받고 있는데,
이 유형의 분석은 예측 모델을 기반으로 어떤 의사결정을 해야 하는지를 “처방”하는 것이 주요 목적이다.
예측 모델 속에 여러 의사 결정 옵션을 변수로 포함시켰다고 보면 이해가 쉬울 것 같다.
Prescriptive model은 어떤 의사 결정을 하느냐에 따라 변하는 결과를 예측해 주기 때문에 이러한 분석을 통해 최적화된 의사 결정을 할 수 있다.

2000년대 초중반 까지 유행했던 Scenario analysis와 유사한 점도 있지만,
Scenario analysis가 비즈니스 인싸이트에 기반하여 만든 정성적인 시나리오를 기반으로 미래를 예측하고 행동 옵션을 제시했다면,
최근의 Prescriptive analytics는 철저하게 수학 모델에 기반하고 있다는 점, 행동 옵션도 모델에 포함시켜 미래를 예측 한다는 점이 차이라고 볼 수 있다.

5. Causal analysis

독립 변수와 종속 변수 간의 인과관계가 있는지 여부를 확인하기 위한 분석이다.
Causal analysis의 특징 중 하나는 실험을 통해 수집된 데이터를 대상으로 한다는 점이다.
주로 독립 변수를 실험대상에 랜덤하게 할당한 후, 그룹 간 실험 전/후의 종속 변수의 변화를 관찰하여 실험 데이터 수집이 이루어 진다.
과거의 단순 관찰 데이터(Observational data)로는  Confounding variable이 있을 가능성을 배제할 수가 없으므로, 인과 관계 여부를 명확하게 밝혀 낼 수가 없기 때문이다.

최근 자주 언급되는 A/B test도 이러한 데이터 수집 방법의 하나라고 볼 수 있다.

선형Regression이 가장 많이 사용되는 분석 방법이며, 변수가 여러개일 경우 Multi variable regression, 변수가 범주형일 경우 Logistics regression을 사용한다.

6. Mechanistic analysis

독립 변수가 어떤 매커니즘으로 종속 변수에 영향을 미치는 지를 분석하는 것으로, 위 6가지 유형 중 가장 노력이 많이 필요한 분석 유형이다.
Causal analysis의 목적이 독립 -종속 변수 간의 “인과 관계 여부”를 밝혀내는 것이었다면,
Mechanistic analysis의 목적은 이에 더해 어떠한 독립 변수가 어떠한 작용을 통해 독립 변수에 그러한 영향을 미치는 지를 이해하는 것이다.
Causal analysis와 동일하게 실험 데이터를 분석 대상으로 한다,

출처
1) Coursera, Managing Data Analysis by Jeff Leek, Brian Caffo, Roger Peng
2) udemy, 10 Different kinds of Graphs for your data (https://blog.udemy.com/different-kinds-of-graphs/)
3) Wikipedia, Predictive analytics (https://en.wikipedia.org/wiki/Predictive_analytics)