학교/데이터와 정보세계

[Data & Information Society] 데이터와 정보세계 4

멍쟈뽀쨕 2024. 4. 20. 14:39

0. 대수의 법칙

"사과를 하나 뽑을 때 그 사과가 썩었을 확률이 p라고 하자. 사과를 n회 뽑았는데 그중 사과가 X번 썩었다. 이때 n이 무한히 커지면 X/n는 p에 가까워진다."

  • p는 수학적 확률 → 모수의 확률
  • X/n은 통계적 확률  → 표준의 확률
  • 대수의 법칙(Law of large numbers): 시행횟수(n)가 많을수록 통계적 확률은 수학적 확률에 가까워진다.
  • 대수의 법칙은 표본의 크기가 중요하다는 의미이다. 그럼 도대체 몇 명을 조사해야 충분한 표본인가? 그 질문의 답은 높은 신뢰구간과 표본오차에 있다. 즉 신뢰수준은 높고 표본오차는 낮아야 한다.
  •  

참고하기

RDD:랜덤 디지털 다이얼링

 

Q1. 응답률 5.0%는 응답을 완료한 사람이 2512명이라는 의미이고,

전체 설문 요청을 한 사람은 2,512/0.05 즉 50,240명이다.

 

Q2. 일단 표본 오차가 95%라는 것은 sampling을 여러번 했을때 이 값이 실제 모수에 들어갈 확률이다.  

또한 신뢰수준이+/- 2.0%라는 것은 

A정당 지지율이 28%~32% 이고, B정당 지지율이 18%~22%라고 볼 수 있고

이 구간이 오버랩 되지 않으므로 각각의 지지율이 "유의미하게" 차이가 난다고 볼 수 있다.

(만약 지지율이 오버랩 된다면 뒤집힐 가능성이 있다.)

 

밴드왜건 효과 

어떤 선택이 대중적으로 유행하고 있다는 정보의 선택에 더욱 힘을 실어주는 효과를 말한다.

언더독 효과

명백하게 혹은 암묵적으로 우월한 위치에 있는 경쟁자를 상대로 경쟁하고 있어 성공하기 어려울 것이라고 예상되는 객체를 응원하고 지지하는 경향

 

1. 개요

  • 데이터 안에서 정답을 찾지 말자
  • 데이터를 활용한 문제 해결 3단계
  • 데이터 활용이 실패하는 주요원인
  • 효과적인 설득을 위한 데이터 스토리텔링 (ex: 뉴스, 연구 논문등)

2 데이터 안에서 정답을 찾지 말자

2.1 데이터 중심으로 생각하지 말고, '목적' 중심으로 생각하자

데이터를 통해 무엇을 말하고 싶은지를 스스로에게 질문하는 목적 중심 사고력이 필요

What CAN you say?

데이터와 그래프에 한정된 생각

What do you WANT to say?

나의 사고(생각)

 

 

이 그림은 그저 현상이다.(What CAN you say?)

만약 인구가 줄어든다는 이야기를 하고 싶다면(What do you WANT to say?) 이 데이터로만은 충분하지 않고 인과관계가 들어간 데이터가 필요하다.

 

2.2 '데이터 활용을 어려워하는' 사람들을 위한 해법

  • 눈 앞에 보이는 데이터, 그리고 분석 기술에 현혹되지 말자.
  • 데이터 자체가 아닌, 내가 왜 이 데이터 분석을 하려고 하는지 '진짜 목적'을 생각 하자
  • 데이터 분석에 앞서 내가 풀고자 하는 문제가 무엇인지 정의해보고 원하는 최종 결과물의 형태를 상상해보자
  • thick data'는 사람들의 실제 경험과 행위에 담긴 맥락과 의미를 설명해 주는 데이터를 지칭한다.

 

2.3 데이터 분석은 그 자체가 '목적'이 아니라 '방법'이다

  • 데이터 자체에 빠지다 보면 본래 우리가 하고자 했던 일, 현실의 문제가 왜곡되는 경우가 많았다

 

3.데이터를 활용한 문제 해결 3단계

나는 처세술 대신 데이터분석을 택했다

도구를 다루는 능력 << 문제 해결 역량(Thinking) + 스토리 텔링 역량

 

3.1 1단계: 문제 정의 

우선 문제를 짚고 넘어갈것

Q1:이상적인 상태는 무엇인가?

Q2:현재 상태는 어떠한가?

Q3:이상적인 상태와 현재 상태의 간극은 얼마인가?

 

3.2 2단계: 원인 분석

논리적 사고를 통해 원인을 찾자

(1) 원인 후보 선정

(2) 그 원인에서 한 단계 더 잘게쪼개거나 더 깊은 생각(Logical Tree)

 이런식으로 원인 분석이 되어 있어야 현상의 차이가 있고 이런 것들을 데이터 적으로 풀어 넣을 수 있음

3.3 3단계: 해결 방안

문제를 해결하기 위한 데이터를 찾자

  • "해결방안이 데이터를 활용했을때 더 효과적인가?"라는 질문을 먼저해야한다.
  • 컴퓨터와 함께 문제를 해결하는 절차나 방법을 "알고리즘"이라고 한다.
  • 일반적인 문제 해결과 다르게 컴퓨터를 이용하여 문제를 해결할 때는 문제를 데이터 관점에서 접근하고 분석해야한다.

4. 문제의 종류에 따른 해결 방법

문제해결 목적에 따른 분석 분류

 

1. 상황을 인지하고 표현하고 싶은 건지 

→ 묘사분석(기술 분석)

2. 평가하고 싶은 건지

→원인(진단) 분석 (Logical Tree필요)

3. 나아가 미래를 예상하고 싶은 건지

→예측 분석

4. 어떤 문제를 해결하고 싶은 건지

→처방 분석

 

ex1) 

기술: 현재 온도는 35도 입니다.

평가(진단): 더운날씨는 온라인 사업에 우호적인 조건입니다.

예측: 앞으로 우리나라 기후는 아열대 특성이 강해질 것이므로, 오프랑니 매장의 인접성보다는 접근성이 훨씬 더 중요할 것 입니다.

문제해결(처방): 사람의 소비 성향을 자극하는 실내 온도는 섭씨 24도로 분석 되었으므로, 매장의 온도를 2도 정도 내려보세요.

 

5. 비즈니스를 망치는 데이터 분석에 대한 10가지 오해(2020년 8월 포브스 칼럼)

1. 애초에 문제 정의 를 좁게 또는 넓게 했기 때문

2. 돈이 많이 들 것이라는 오해

3. 시간이 많이 들 것이라는 오해

4. 고급 분석 스킬이 필요할 것이라는 오해

5. 모든 회사가 데이터로 혁신 할 것이라는 오해

6. 지표 하나에 집착할 필요 없을 거라는 오해

7. 데이터 과학은 무결할 거란 오해

8. 데이터 산업이 인력감축을 초래할 거란 오해

9. 데이터도 '다다익선'이라는 오해 → feature가 괜찮아야 함!

10. 분석 자체 만으로도 비즈니스에 도움을 줄 거라는 오해

 

 

6. 우리는 왜 데이터 활용에 실패하는가?

6.1 데이터 활용에 실패하는 주요원인

1. 해결하고자 하는 문제가 불분명하다.

2. 문제정의, 원인 분석, 해결방안의 논리 흐름이 부족하다.

3. 목적과 데이터가 일치하지 않는다.

 

2020년 11월 통계청에서 발표한 <통계로 본 농업의 구조변화> 데이터를 제시하고 이를 활용하여 농촌지역을 활성화시키기 위한 문제를 도출하고 해결방안을 제시하는 보고서 사례

 

예시 1

문제점

보고서 제목 없음

목적과 정의에 대한 설명이 없다.

뭘하겠다는 결론이 없다.

 

 

예시2

문제점

문제 정의가 잘못되어있다.(영농 후계자가 부족하다 = 농가 후계자의 수요가 많고 공급이 적다 -> 관련 데이터 x)

비약이 많음

흐름이 매끄럽지 x 

 

올바른 문제 정의

문제점: 농촌의 인력이 부족 (취업자수가 적음= 농업의 신규 취업자 수가 줄고 있음)

 

 

예시3)

문제점 데이터와 하고자 하는게 불일치하는 케이스

내용은 정보화 기기 활용 농가가 점점 증가하고 있음을 나타냄 but 제목은 기기활용 부족 데이터와 문제정의가 다름

정보화 기기활용 농가가 증가하면 농가소득도 증가한다고 바로 얘기를 하고 있음

정보화 기기활용 농가가 증가하면 농가소득도 증가한다 → 상관관계는 서로 인과관계가 아님

정보화 기기활용이 증가하면서 소득 증가 → 동시다발적으로 일어나는 현상일 수 있음

상관관계가 높다고 인과관계가 되는 것이 아님!!

농가의 정보화 기기활용이 부족한 것이 아님

 

7. 스토리텔링 + 데이터 => 가치를 낳는다

 

주식이 올라가고 떨어지는데에는 이유가 있을 수 있음 위 사진을 보면 알 수 없지만 아래 100년의 역사와 함께 정리해 놓은 차트를 보면 1차 세계대전, 2차 세계대전, 주가 대폭락, 팬데믹 등등 큰 사건뒤에 주가가 크게 흔들리고 있는 것을 확인할 수 있다.

 

8. 효과적인 설득을 위한 데이터 스토리텔링

프로랜스 나이팅게일은 크림 전쟁의 사망률을 분석하였는데, 대부분의 군인들이 전투에서 사망하지 않고 병원의 열악한 위생 상태로 인한 질병으로 사망하게 된다는 것을 알게 되었습니다.

나이팅 게일은 영국 의회와 빅토리아 여왕에게 위생 상태를 개선하도록 설득하기 위해 군인의 사망원인에 대한 도표를 만들었습니다. 그리고 더 나은 위생 상태의 필요성을 설득하기 위하여 데이터 스토리텔링을 이용하였으며, 그 결과 수 많은 군인들의 목숨을 구하였습니다.

 

9. 연구 논문에서 데이터를 활용하는 방법

4

예시) 모로나 백신 부스터 샷은 효과가 있을까?

 

설득을 할때 데이터가 핵심. 어떤 주장을 펼칠 때 데이터에서 스토리텔링으로 뽑아내야함 그리고 결론을 내려야함

결론 != 결과

결과: 분석하고 찍어낸 후 데이터 보여주기

결론: 결과를 가지고 결론을 내림(스토리 텔링)