어떤 두 데이터 집단간에 상관 관계를 알고 싶을때 통계학에서 주로 사용하는 분석은
상관관계와 회귀분석이다.
이 글에서 다룰 내용은 상관관계!
상관관계는 일반적으로 피어슨 상관관계(r)를 의미하는 상관계수이다.
피어슨 상관 계수(Pearson Correlation Coefficient ,PCC)란 두 변수 X 와 Y 간의 "선형 상관 관계"를 계량화한 수치다 .
피어슨 상관 계수는 코시-슈바르츠 부등식에 의해 +1과 -1 사이의 값을 가지는데,
+1은 완벽한 양의 선형 상관 관계,
0은 선형 상관 관계 없음,
-1은 완벽한 음의 선형 상관 관계를 의미한다.
상관 계수에 따른 분산도 (-1 ~ +1)
통계학 상관 계수인 피어슨 상관 계수를 구글 스프레드 시트에서 함수로 제공한다.
=PEARSON(종속 데이터의 범위, 독립 데이터의 범위)
쉽게 말해 두 데이터 범위를 비교했을 때 상관관계가 있는지, 없는지,
상관관계가 있다면 비례하는지 반비례하는지를 수치로 나타내 주는 것이다.
아래 예시는 홀수 배열과 짝수 배열의 상관 관계를 알아본 결과이다
=PEARSON(A2:A10,C2:C10)
=PEARSON(홀수배열 , 짝수배열)
=1
피어슨 값이 1 이라는 것은
홀수배열과 짝수배열이 완벽한 양의 선형 상관 관계가 있다는 의미이다.
양적 상관관계 즉 비례하는 데이터를 보여준다는 의미이다.
홀수도 2씩 커지고 짝수도 2씩 커지기 때문에 완벽한 비례관계가 맞다.
참고로 함수 PEARSON 은 함수 CORREL 과 사용법도 값도 같다.
상관관계 주의사항은
상관관계가 있다고 해도 원인과 결과를 의미하는 것은 아니라는점!
원인과 결과의 관계가 있는지 알고 싶다면 '회귀분석' 을 해보아야함!
'IT > 엑셀, 구글스프레드시트' 카테고리의 다른 글
[구글 스프레드시트] 문자랑 함수 한 칸에 같이 표기하는 방법 (feat. &) (0) | 2021.09.10 |
---|---|
[엑셀, 구글 스프레드시트] 주민등록번호 뒷자리 가리는 방법 (left, rept, concat) (0) | 2021.08.31 |
[구글 스프레드시트] SQL Query문을 구글스프레드 시트에서~ (0) | 2021.05.14 |
[구글 스프레드시트] 중복 제거 함수 unique (0) | 2021.04.29 |
[구글 스프레드시트] 'if' 함수 사용법 / if 중첩 (0) | 2021.02.26 |
댓글