[Statistics] 통계, 그리고 평균과 표준편차가 뭐길래?
IT/공부자료

[Statistics] 통계, 그리고 평균과 표준편차가 뭐길래?

데이터 분석 프로그래밍 수업을 듣는 중, p-value의 의미를 찾아보다 도통 이해가 되지 않아서, 원흉인 통계를 공부해보기로 했습니다 ㅎㅎ.. 

통계라는건 이미 고등학교 때 공부를 했었지만, 공식만 알고 대입만 해봤더니, 완벽히 이해가 되지 않아서 이번 기회에 공부하기로 했어요 

 

 

 

통계란 단어만 들었을 때는 어렵게 느껴져서,일상생활 속에서 예시를 통해 통계를 먼저 살펴볼게요.  

-예시-

- 이번에 내가 원하는 대학에 '우연히' 붙을 가능성은 ? 

- 내가 '우연히' 약속시간에 지각할 가능성은?

- 오늘 '우연히' 비가 올 가능성은? 

 

---> 이처럼, '우연히' 일어날 가능성에 대해서 의문점을 갖는 것이 통계적인 관점으로의 출발인 것 같습니다.

 

 

 

왜 우리는 이러한 통계적인 수치들을 이용해서 대화하고, 수 많은 의사결정을 할까요?

사람과 사람 사이에는 신뢰도가 가장 중요하잖아요. 

결국에는, 우리는 누군가에게 전하고 싶은 말에 신빙성을 더하기 위함이지 않을까 합니다.

 

 

 

 

통계에는 다른 가치를 제공하는 값들이 많습니다.(최빈값, 중앙값 등)

그런데 그 많은 값들 중 가장 대표적인 것이 평균과 표준편차(분산)입니다.  왜 그럴까요? 

 

1. 계산이 쉽습니다.

 : 데이터가 많아지면, 평균을 구해서 계산하는 것이 다른 방법들보다 편하다고 합니다. 

2. 가우스에 의하면, 데이터의 불규칙성이 정규분포를 따르면 최소제곱법이 최적의 추정방법입니다. 즉, 평균이 가장 best 방법입니다.

3. 체비체프에 의하면, 데이터의 불규칙성이 어떠하든, [평균 ± 표준편차 x 2] 범위에 전체의 3/4 이 존재한다고 합니다. 

 

-> 표준편차,분산도 모두 평균만 구하면 계산할 수 있는 값들이기에 평균,표준편차,분산이 대표적인 값들입니다. 

 

 

 

그럼 평균부터 알아봅시다.

평균

평균은 모든 자료들의 중앙값입니다. 

*그런데 그 모든 자료로부터 영향을 쉽게 받는 것이 유의해야할 사항입니다. (Outlier에 취약하다.) 

Outlier

 

 

그럼 분산이란?

분산

평균값을 기준으로 퍼.져.있는 평균거리입니다. (퍼져있는 정도를 다시 평균을 낸거에요!)

 

- 분자 (제곱합)

평균값과 다른 정도를 알기 위해 값에 평균을 빼고, 음수를 대비해서 제곱을 해줍니다.

 

- 분모 (자유도)

분자에서 이미 평균값을 1번 빼주었기 때문에 ( 값들을 대표하기 때문에, 그냥 값 1개라고 치는 것 같습니다.)

 

 

 

표준편차 

분산 구할 때 제곱해서 커졌던 수를 제곱근을 해주어서 다시 작게 만들어 줍니다.

이렇게 나온 수는 분산보다 수의 범위가 작기 때문에, 수치를 좀 더 직관적으로 확인이 가능합니다.

 

 

 

 

 

 

아래 영상을 참고하여 정리하였습니다.

https://www.youtube.com/watch?v=NG1ZNH1kOl0&t=1s