본문 바로가기

AI_학습노트/관련 용어

_06. 피어슨 상관 계수(Pearson correlation coefficient 또는 Pearson's r)

변수 사이의 선형 관계 조사(Pearson)

두 계량형 변수 사이의 선형 관계의 강도와 방향을 조사하려면 Pearson 상관 계수를 사용합니다.

  • 강도

상관 계수 값의 범위는 −1부터 +1까지입니다. 계수의 절대값이 클수록 변수 사이에 강한 관계가 있습니다.

Pearson 상관의 경우 절대값 1은 완전한 선형 관계를 나타냅니다. 0에 가까운 상관 값은 변수 사이에 선형 관계가 없음을 나타냅니다.

  • 방향

계수의 부호는 관계의 방향을 나타냅니다. 두 변수가 함께 증가하거나 감소하는 경향이 있으면 계수가 양수이며, 상관을 나타내는 선이 위쪽 방향으로 기울어집니다. 한 변수가 증가할 때 다른 변수는 감소하는 경향이 있으면 계수는 음수이며, 상관을 나타내는 선이 아래쪽 방향으로 기울어집니다.

다음 그림은 변수 사이 관계의 강도 및 방향의 여러 패턴을 보여주기 위해 특정한 상관 값을 갖는 데이터를 표시합니다.

Correlation coefficient - 피어슨 상관 계수 - 위키백과, 우리 모두의 백과사전 (wikipedia.org)

 

  • 결과의 해석

r 값은 X 와 Y 가 완전히 동일하면 +1, 전혀 다르면 0, 반대방향으로 완전히 동일 하면 –1 을 가진다. 결정계수(coefficient of determination)는 r**2로 계산하며 이것은 X 로부터 Y 를 예측할 수 있는 정도를 의미한다.

일반적으로,

*음적 선형관계는 두 계수가 서로 반비례 관계에 있음을 의미

  • r이 -1.0과 -0.7 사이이면, 강한 음적 선형관계 (이미지: P = -1)
  • r이 -0.7과 -0.3 사이이면, 뚜렷한 음적 선형관계(이미지: -1<p<0)
  • r이 -0.3과 -0.1 사이이면, 약한 음적 선형관계(이미지: -1<p<0)
  • r이 -0.1과 +0.1 사이이면, 거의 무시될 수 있는 선형관계(이미지: p=0)
  • r이 +0.1과 +0.3 사이이면, 약한 양적 선형관계(이미지: 0<p<1)
  • r이 +0.3과 +0.7 사이이면, 뚜렷한 양적 선형관계(이미지: 0<p<1)
  • r이 +0.7과 +1.0 사이이면, 강한 양적 선형관계 (이미지: P = 1)

로 해석한다.

 

상관 계수를 해석하려면 다음과 같은 점을 고려하십시오.

  • 상관 계수만을 기초로 하여 한 변수의 변화가 다른 변수의 변화를 유발한다는 결론을 내리는 것은 적절하지 않습니다. 적절히 통제된 실험에서만 인과 관계를 확인할 수 있습니다.
  • Pearson 상관 계수는 극단 데이터 값의 영향을 상당히 많이 받습니다. 데이터 집합에 나머지 값들과 매우 다른 값이 하나 있으면 상관 계수의 값이 크게 변경될 수 있습니다. 따라서 극단값의 원인을 식별해야 합니다. 모든 데이터 입력 또는 측정 오류를 수정합니다. 비정상적인 일회성 사건과 연관된 데이터 값을 삭제합니다(특수 원인). 그런 다음 분석을 반복합니다.
  • 낮은 Pearson 상관 계수는 변수 사이에 관계가 없다는 것을 의미하지 않습니다. 변수 사이에 비선형 관계가 있을 수도 있습니다. 비선형 관계를 그래픽으로 확인하려면 산점도을 생성하거나 적합선 그림을 사용하십시오.

 

참고자료 링크: