데이터 분석가(Data scientist)에게 꼭 필요한 4가지 역량

Data scientist?

빅데이터의 시대라고들 합니다. 최근 몇 년 간 데이터 저장 및 처리 비용이 엄청나게 낮아지면서 생성되는 데이터의 종류, 양이 무척이나 다양해졌습니다.

데이터 분석가, 혹은 데이터 싸이언티스트라고 불리우는 직업군이 주목을 받게 된 것도 이러한 배경에서 데이터 분석을 통해 무궁무진한 비즈니스 기회를 찾아낼 수 있기 때문일 것입니다.

Job market에서도 Data scientist에 대한 수요가 점점 커짐에 따라 이들의 몸값도 올라가는 추세입니다.  Harvard Business Review에서는 수년 전에 이미 Data scientist를 “The sexist job in the 21st century“로 규정하면서, 2020년대가 되면 특정 영역에서는 Data scientist에 대한 수요가 공급을 훨씬 초과하는 현상이 발생할 것이라고 예측한 바 있습니다.

이렇게 핫한 직업군이기 때문에 종종 저에게 데이터 싸이언티스트가 되려면 어떤 분야의 지식, 기술이 필요한지 물어보시는 분들이 계시는데요, 이 글에서 데이터 분석 분야에 뛰어들기(?)위해서는 어떠한 스킬셋이 필요한지를 정리해 보도록 하겠습니다.

참고로, 데이터 싸이언티스트와 데이터 애널리스트, 데이터 엔지니어, 비즈니스 애널리스트 등 데이터 분석 관련 직업을 상세하게 구분하는 경우도 있지만, 이 글에서는 기업에서 데이터를 분석하는 직업을 가진 사람을 통칭하여 “데이터 분석가”라고 부르겠습니다.

data scientist : before and now
소스: www.techjuice.pk

데이터 분석가, 어떤 일을 하나?

기업 마다 조금씩 다르겠지만, 데이터 분석가의 가장 중요한 역할은 의사결정자가 data-informed decision을 할 수 있도록 적절한 시기에 정보를 제공하는 역할일 것입니다.

여기서의 정보는 기술 통계적인 데이터(평균, 합계 등)에서 부터, 보다 복잡한 현상을 해석하고 예측하는 모델에 이르기 까지 다양합니다. 데이터 분석가의 전문성이 높아질 수록 보다 정교하면서도 설명력/예측력이 높은 모델을 제공할 수 있겠죠.

좀 더 구체적으로 라이엇 게임즈를 기준으로 이야기 해 보겠습니다.

제가 속해 있는 비즈니스 애널리틱스(Business Analytics) 팀의 주요 업무 영역은 회사 내 Key business metrics의 모니터링 및 보고,  ad-hoc 데이터 분석 요청 대응, 주요 이슈에 대한 프로젝트 형 분석의 세가지로 구분할 수 있습니다.

사전에 정의되어 있는 지표를 모니터링 및 보고하는 것이 기술 통계적인 정보의 제공이라면, 심층 분석은 현상 해석 혹은 예측 모델을 수립하는 것이라고 볼 수 있습니다.

데이터 분석가에게 필요한 역량 4가지

데이터 분석가는 의사 결정을 위한 “정보”를 제공하는 사람이라고 말씀드렸죠? 데이터 분석가에게는 이러한 말씀드린 정보(기술 통계적인 정보에서 예측 모델까지를 통칭해서)를 제공하기 위한 역량이 핵심적입니다.

1 데이터에 대한 이해

가트너는 빅데이터의 특징을 3V (양Volume, 다양성Variety, 속도Velocity)의 세가지로 정의한 바 있습니다. 데이터가 복잡하고 방대해 졌다는 뜻인데요, 그렇기 때문에 데이터 자체에 대한 이해 없이는 좋은 분석가가 되기 어렵습니다.

데이터 분석가는 데이터베이스에서 자신이 원하는 데이터를 추출할 수 있어야 합니다. 회사마다 DB구조가 다르고, 주로 분석하는 영역이 다르기는 하지만 대부분 RDBMS를 사용하기 때문에 어떤 분야던지 SQL에 대한 이해는 필수적이고, Mongo DB를 사용하는 곳에서는 JSON에 대한 지식도 필요하겠죠.

SQL에 대한 기초를 쌓고 싶은 분은 이고잉님의 생활코딩에서 SQL 강의를 들으시는 것을 추천합니다. 개인적으로는 SQL 관련 책을 한권 사서 cover to cover로 다 읽는 것 보다는 기본 개념을 잡아두고 필요할 때마다 발췌해서 보시거나 구글링(주로 스택오버플로우)해서 쿼리를 작성해 보는 것이 더 효율적인 것 같습니다.

sql joke
썰렁한 SQL Joke를 이해할 수 있게 됩니다. 소스: wpicode

2 통계 및 분석 방법에 대한 이해

Coursera에서 가장 인기 있는 강좌 중 하나인 Data Science 전공의 교수진들은 한때 “데이터 싸이언티스트라는 말은 단지 통계학자를 멋있게 부르는 말에 불과하다 (Data scientist is just a sexed-up word for statistician)“는 말을 한 적이 있습니다.

머신러닝, 딥러닝을 비롯한 최근의 다양한 분석 방법이 통계학적 기반을 가지고 있다는 것을 생각해보면 수긍이 갑니다. 데이터 분석을 하기 위해서는 통계적 지식이 필수라는 말이지요.

물론 기존의 통계학에만 정통해서는 데이터 분석 업무를 잘 수행해 내기 힘듭니다. 계속해서 다양한 분석 기법들이 쏟아져 나오고, 기존의 분석 기법들이 업그레이드 되니까요.

다양한 분석 기법을 습득하기 위해 추천해 드리는 방법은 자주 사용되는 분석 기법들을 정리해 놓은 책을 읽거나, 온라인 강의를 통해 분석 방법론의 유형과 기본 개념에 대해 익혀두는 것입니다.

지도학습, 비지도학습 영역 별로 사실 자주 사용되는 기본 분석 방법론을 알아 나가는 것은 그리 어려운 일은 아닙니다. 본 블로그에서도 분석 방법론은 계속 정리해 나갈 생각입니다.

최신 분석 방법에 대해 계속 업데이트 받기 위해서는 데이터 분석과 관련된 커뮤니티(캐글)에 가입하거나, 유명한 데이터 분석가 중 마음에 드는 사람의 블로그를 팔로잉 하는 것도 좋은 방법이라고 생각합니다.

물론 데이터 분석 방법은 분야도 다양하고, 점점 깊어지는 추세이기 때문에 대략적인 분석 방법을 아는 것 만큼이나 자신의 전문 영역을 확보하는 것도 중요합니다. 이 부분은 데이터 분석가가 된 이후에도 계속 습득해 나가야 하는 부분이구요.

3 분석 Tool에 대한 이해

MS Excel은 다양한 기능이 있고, 사용하기 매우 편리하지만, 위에서 언급한 분석 기법을 모두 지원하지는 않습니다. 따라서 데이터 분석가는 분석을 위한 전용 Tool을 사용할 수 있어야 합니다.

데이터 분석을 위한 다양한 Tool이 있는데요, 자신과 잘 맞는다고 생각하는 Tool을 하나 정해서 익히면 됩니다. 가장 자주 사용되는 분석 Tool에는 아래와 같은 것들이 있습니다.

오픈소스: R, Python
유료: SAS, SPSS

유료 Tool의 경우 보다 사용하기 쉬운 UI를 제공하지만 코딩이 익숙하지 않은 분들이 비교적 쉽게 습득할 수 있다는 장점이 있습니다.
오픈소스는 무료라는 점, 사용자가 다양하기 때문에 다양한 기능이 지원된다는 점이 매력적이구요. 혹시 R과 Python 중 어느 것을 고를 지 고민되시는 분은 이 포스트를 참고해보세요.

R vs Python
R vs Python
소스: InData Labs

 

4 비즈니스 커뮤니케이션

데이터 분석가에게는 커뮤니케이션을 잘 하는 것이 다른 직업군 보다 더욱 중요합니다.  데이터가 다른 여러 부서와 관련이 되어 있기 때문이기도 하고, 분석 결과 또한 다른 부서, 의사 결정자가 활용하기 때문입니다.  

커뮤니케이션에는 여러가지 영역이 있고, 중요하지 않은 영역은 물론 없지만, 저는 데이터 분석가에게 필수적인 커뮤니케이션 능력은 아래 두 가지로 정의할 수 있을 것 같습니다.

문제 정의 능력

무엇을 해결하고자 하는지 명확하게 알지 못하면 문제를 해결 할 수도 없습니다. 실제로 문제를 해결했다고 하더라도 해결했는지 조차도 모를 수도 있겠죠.

그렇기 때문에 데이터 분석을 시작하기 전에 달성하고자 하는 목적 및 비즈니스 임팩트가 무엇인지를 구체적으로 정의하는 것이 중요합니다.

사전에 기본적인 Problem solving 방법론과 데이터 분석의 기본적인 문제 유형을 습득하고 있어야 유관부서나 의사결정자와 문제에 대한 정의를 할 때 정말로 해결해야 할 문제가 무엇인지에 대한 협의를 이끌어 낼 수 있습니다.  

결과 전달 능력 (StoryTelling and Visualization)

데이터 분석의 결과를 필요한 사람/부서에서 잘 이해할 수 있도록 전달하는 것 또한 필수적인 스킬 중 하나입니다. 이를 위해서는 잘 구성된 Storyline을 적절히 시각적으로 보여주는 것이 필요합니다.

스토리텔링의 영역에서는
데이터가 어떻게 받아들여 질지, 이해관계자 입장에서 쉽게 이해할 수 있도록 계속 고민하는 것이 필요합니다.

데이터 시각화 영역에서는
간단한 데이터 분석의 결과를 전달할 때는 PPT나 엑셀 그래프도 여전히 자주 사용되지만, 최근에는 tableau나, R의 ggplot2 패키지 등 보다 다양한 시각화 기능을 지원해 주는 Tool들을 점점 더 많이 활용하는 추세입니다.

 

데이터 분석에는 다양한 업무 영역이 있고, 영역 별로 전문성도 점점 심화되는 추세이지만,  위 4가지 영역은 어떤 분야의 데이터 싸이언티스트에게나 필수적인 스킬셋입니다.
이 글이 좋은 데이터 분석가/Data Scientist가 되고자 하는 분들에게 좋은 참고가 되었으면 좋겠네요.

 

 

참고 자료

1) R-bloggers,  How to become a data scientist in 8 easy steps
2) Coursera,  Launch your career in data science
3) Data science central, how to become a data scientist for free

“데이터 분석가(Data scientist)에게 꼭 필요한 4가지 역량”에 대한 1개의 생각

댓글은 닫혔습니다.