- 데이터 분석가에 대한 정의
데이터 분석가는 데이터에 기반해 성공 확률이 높은 의사결정을 지속적으로 하도록 돕는 사람이라고 표현할수 있다.
데이터 분석가에게 중요한점 3가지로 1)데이터 기반 2) 성공 확률이 높은 의사결정 3)지속성
- 데이터 기반
데이터 분석가의 주요업무는 데이터에 기반해 의견을 내는것입니다 그러나 데이터가 잘 활용되지않거나 잘 쌓이지 않는 조직도 많기 때문에 데이터 분석 작업 이전에 데이터가 흐르는 조직을 만들어야한다.
- 데이터가 흐르는 조직
데이터 분석가가 조직에 기여할 수 있는 방법을 순서대로 표현하면 1)데이터가 흐르는 조직 ▶ 2)스토리텔링 분석,목표 설정,실험 ▶ 분석 고도화
여기서 데이터가 흐르는 조직은 첫번째 단계로 속합니다. 실무자가 필요한 데이터가 있을 때 쉽게 데이터를 확인할 수 있고,주요 지표가 어떻게 진행되는지 알고 있다면 데이터가 잘흐른다고 볼 수 있다.
조직 내에서 데이터를 쉽게 확인하기 위해선 BI(Business Intelligence)툴도입, 대시보드 개발,SQL 교육,사용하기 쉬운 데이터마트 개발,PA(Product Analytics)툴 활용,알림봇 개발 등 다양한 방법이 있습니다
- BI 툴 도입
BI툴을 활용해 여러 대시보드가 만들어지는데 대시보는 쉽게 말해 계기판이라고하며 자동차는 계기판을 통해 속도, 방향지시등, 연료같은 정보를 표현하고 중요도에 따라 크기와 강조한 정도가 다름을 알 수 있습니다.
이때 영역을 잘 구획해서 연관된 정보를 모아두는 것이 정보를 읽기 편합니다 그리고 지표를 잘 찾을 수 있도록 설계하는 과정도 필요합니다.
우선 카테고리별로 분류하고,위계와 중요도를 시각적으로 표현하면 지표를 찾기 훨씬 수월해집니다. 또한 사용자를 분석할 수 있는 필터를 제공해야하며 측정 기준에따라 별도 지표를 볼 수 있게 만들면 좋습니다.
- SQL교육
다수의 기업에서 데이터가 흐르는 조직을 표방하기위해 비데이터 직군 구성원도 SQL을 사용하도록 교육하는것이 좋습니다. 그이유는 쿼리 요청을 줄여주는 장점도 있지만,데이터를 파악할 수 있어 내용이 구체화되고 깊이 있는 분석을 할 수 있게됩니다.
- 데이터 마트
미리 문서화하고,여러 데이터를 모아 목적에 따라 가공한 데이터 마트로 만들어 원천 데이터가 아닌 데이터 마트를 사용하도록 유도해야한다.
또한 데이터를 여러 사람이 사용하게 되면서, 각자 지표 정의와 구현법이 다른 것이 문제가되어 이러한 문제를 해결하기위해 최근에는 지표를 통합된 기준으로 관리하는 메트릭 스토어를 도입하는 회사도 많아지고 있습니다.
- 주요 지표 인지하기
주요 지표를 인지하는 것은 영업에 더 가깝습니다.
리포트 형태로 제공할 때 결과 지표만 공유하지 않고, 다음 내용들을 추가하면 주요 지표를 더 확고하게 인지시킬 수 있습니다.
1) 결과 지표 추이를 통해 예상되는 미래 상황과 목표를 고려했을 때 얼마나 잘하고 있는지 알려준다.
2) 결과 지표에 선행하는 것으로 보이는 지표를 소개한다.
3) 최근 액션에 대응하는 결과를 볼 수 있는 지표가 무엇인지, 현재 상황이 어떠한지 소개한다.
이때 지표마다 특정 구성원에게 오너십을 부여하는 것도 하나의 방법입니다. 특정 지표에 오너십을 가진 사람을 메트릭 오너(metric owner)라고 하는데요. 각자 담당 지표가 생기면 그 성과가 곧 본인의 성과이기 때문에 지표를 잘 이해하게 되고, 지표에 변화가 생길 때 관련 지표까지 파악하기 위해 노력하게 됩니다.
- 성공 확률이 높은 의사 결정
최근 데이터의 중요성을 강조되는 이유는 데이터에 기반한 의사결정이 성공 확률을 높이는 방법이라는 것을 여러 회사에서 증명했고 국내에서는 조금 늦게전파되었습니다. 따라서 데이터 분석가는 조직이 성공 확률이 높은 의사결정을 하도록 기여해야합니다.
- 상황을 정확하게 해석하기
데이터 분석가는 여러 지표를 적절히 조합하고 분석해, 편향되지 않게 해석하고 상황을 진단하는 사람이어야 합니다.
이때 상황에 대한 해석을 업데이트하고,왜 이렇게 해석했는지 이유를 알리는 것이 필요합니다.
상황을 잘 해석하기위해 도메인 지식을 지속적으로 기르는것이 중요합니다.
도메인 지식이란 회사가 속한 산업,상품 혹은 서비스에 대한 지식을 의미합니다.
도메인 지식이 필요한 이유는 생각의 프레임 워크를 사실에 가깝게 구설하기위함입니다.
생각의 프레임워크는 작업시간을 줄여주고 커뮤니케이션이 명확하게 하며 제대로 된 해석이 이뤄질 수 있게 도와줍니다.
생각의 프레임 워크가 없으면 볼 수 있는 모든 지표를봐야하며 모든 지표를 봐도 하나의 이야기 구조로 결과물이 나오지 않으며 잘못된 해석으로 잘못된 액션 아이템을 제안할 수도 있습니다.
하지만 생각의 프레임 워크가 잡히면 상황을 해석하기 위해 비교적 쉽게 알 수있고, 그렇게 확인한 지표가 하나의 이야기 구조로 나오게 됩니다.또한 생각을 정리할수있습니다
단순히 데이터만 봤을때 잘못 해석할 수 있는 상황이 있는지,적절한 데이터 조건과 분석 방법을 함께 고려할 수 있습니다.
회사에서 무엇을했고 결과가 어땠는지에 대해 정보를 잘 축적하고 그것을 합리적인 형태로 구조화하는 것은 많은 도움이됩니다.
- 목표 설정과 성과 측정
어떤 시도에 대한 목표를 설정하고 성과를 측정하여 더 좋은 결과물을 축적합니다. 이러한 목표설정 - 실행 -측정 - 축적 으로 이어지는 체계적인 조직 운영을 통해, 전략적으로 성공 확률을 높이는것이 데이터 기반 의사결정이 추구하는 것입니다.
- 목표 설정하기
목표치는 크게 세가지의 조합으로 1) 구조화된 로직에 과거 데이터를 활용한 예상치, 2)새로운 액션에 대한 확신 수준,시장이나 경쟁사 상황,불확실성을 반영한 기대치, 3)의지치가 있다.
이 3가지의 합이 목표치가 되는 것이 아니라 예상치에 구조화된 로직이 있을 때 그 로직을 구성하는 수치를 기대치와 의지치를 이용해 변경한 값이 목표치입니다.
필요 이상으로 로직을 세분화하는것은 적절하지않다. 목표설정은 현실적이면서 조금 어려운 수준에서 공동의 목표를 만들고 구성원들의 몰입을 이끌어 내는 것이 중요하다.
- 성과 측정하기
성과는 조직에서 의도적으로 만든 변화로 인해 결과가 어떻게 바뀌었는가를 생각해 볼 수 있습니다.
가장 보편적으로 사용되는 성과 측정 방법은 해당 시기 이후로 지표가 어떻게 변했는지 확인 하는 것입니다.
통제할 수 없는 외부 요인까지 반영하기위해, A/B테스트 실험을 하게 됩니다. 무작위로 할당된 그룹 간 지표차이를 통해 성과를 측정하는것이 A/B테스트이며 분석의 명확성으로 인해 많은 기업에서 사랑받는 성과 측정 방법이기도합니다.
성과 측정은 도메인과 회사, 어떤 유형의 변화를 주는가에 따라 다양한 접근이 가능합니다.
각 상황에 맞는 적절한 성과 측정 방법을 설계해야 하며, 각 방법론의 장점과 한계 등을 인지하고 있어야 좋은 성과 측정 방법을 제안할수있습니다.
A/B테스트의 경우 단기적 성과만 측정할수있어, 단기/장기 성과가 다를 것으로 예상된다면 아예 실험을 하지 않거나, 장기 실험 그룹을 작은 비율로 유지해 충분히 장기간 성과를 측정하는 것이 좋습니다.
- 지속성
데이터에 기반해 더 좋은 의사결정을 한다는 전략에 맞춰, 체계적으로 의사결정을 축적하다 보면 결과적으로 가장 높은 성공 확률을 갖추게 될 것입니다.
지속성을 위해 데이터 분석가는 먼저 비즈니스 사이클에 맞게 분석해야합니다.
첫째로 분석 주제가 현재 회사가 집중하는 것과 다르면 안 되고 둘째로 분석 주제의 결과물이 비즈니스 사이클에 필요한 적절한 것 이어야합니다.
비즈니스 사이클은 3가지로 1)기회 발굴,아이디어 수집,정책 설계 등을 하는 플래닝, 2)플래닝의 결과실행 및 배포, 3)성과 측정 및 후속 분석이 있습니다.
첫번째 플래닝 시기에는 기회 발굴을 위한 탐색적 분석과 데이터 및 성과 측정 방법을 설계한다.
두번째 실행 및 배포 시기에는 데이터 확인과 대시보드를 관리한다.
세번째 성과 측정 및 후속 분석 시기에는 성과 측정 및 추가 데이터 분석을 통해,인사이트를 뽑고 다시 플래닝에 반영할 것이 있을지 확인한다.
SQL
- WHERE 절로 원하는 데이터 뽑고 계산해보기
항상 Query를 작성하기 전에 해당 문제에 흐름을 정리하고 어떻게 구문으로 만들지 생각하기!
[예시] 주문 금액이 3만원 이상인 주문건의 갯수 구하기
- 어떤 테이블에서 데이터를 뽑을 것인가 → from food_orders
- 어떤 컬럼을 이용할 것인가 → order_id, price
- 어떤 조건을 지정해야 하는가 → where price >= 30000
- 어떤 함수 (수식) 을 이용해야 하는가 → count(order_id) 혹은 count(1)
select count(order_id) count_of_orders from food_orders where price>=30000 |
- GROUP BY로 범주별 연산하기
where 절을 사용해서 수십개의 쿼리를 작성하는 것은 너무 비효율적입니다.
GROUP BY를 사용하면 간단하고 효율적으로 범주별 연산을 할 수 있습니다.
Group by는 카테고리 컬럼 지정,그리고 Group by를 적어주면 적용 가능합니다.
select 카테고리컬럼(원하는컬럼 아무거나), sum(계산 컬럼), from group by 카테고리컬럼(원하는컬럼 아무거나) |
- ORDER BY로 Query 결과를 정렬하기
SQL 결과를 원하는 값 기준으로,오름차순 혹은 내림차순으로 정렬할 수 있습니다.
오름차순 : 숫자가 점점 커지는 순서로 정렬
내림차순 : 숫자가 점점 작아지는 순서로 정렬
ORDER BY + 컬럼 기준 + ASC(기본값) 혹은 DESC(내림차순) 을 적어주면 됩니다.
오름차순이 기본값이므로 내림차순을 명시하지 않아도 됩니다.
order by절에서 여러 조건을 적용해야 할 경우, 쉼표를 이용해서 연결이 가능합니다.
특히 기준 컬럼의 앞쪽에 위치한 조건이 더 중요하다면, 해당 컬럼을 먼저 적어줄 것을 권장합니다.
Order by 는 카테고리 컬럼 지정, 그리고 Order by 를 적어주는 것으로 적용 가능합니다.
select 카테고리컬럼(원하는컬럼 아무거나), sum(계산 컬럼), from group by 카테고리컬럼(원하는컬럼 아무거나) order by 정렬을 원하는 컬럼 (카테고리컬럼(원하는컬럼 아무거나), sum(계산 컬럼) 둘 다 가능) |
- SQL 구조 마스터
아티클 스터디에선 데이터분석 작업이 개인의 역량보다 조직원들 전체가 데이터를 이해하는 흐름으로 만드는 환경이 필요하다는 점에서 매우 신기했고 조직 구성원들과의 커뮤니케이션에 대한 중요성도 느꼈다.
SQL은 공부하면서 그룹 바이와 오더 바이의뜻을 정확히 이해했다.
'자기계발 Diary' 카테고리의 다른 글
오늘의 공부day_5(마케터에게 데이터분석이란? 필요할까?, SQL 공) (5) | 2024.11.07 |
---|---|
오늘의 공부 day_4(SQL 가독성을 높이는 다섯가지 습관, SQL공부) (5) | 2024.11.05 |
오늘의 공부 day_2(SQL 비교연산,논리연산,계산 함수) (0) | 2024.11.01 |
오늘의 공부 day_1(데이터 리터러시,데이터 관련,SQL 기초) (1) | 2024.11.01 |
데이터 분석가는 어떤 일을 할까? (0) | 2024.10.30 |