변수 사이의 선형 관계 조사(Pearson)
두 계량형 변수 사이의 선형 관계의 강도와 방향을 조사하려면 Pearson 상관 계수를 사용합니다.
- 강도
상관 계수 값의 범위는 −1부터 +1까지입니다. 계수의 절대값이 클수록 변수 사이에 강한 관계가 있습니다.
Pearson 상관의 경우 절대값 1은 완전한 선형 관계를 나타냅니다. 0에 가까운 상관 값은 변수 사이에 선형 관계가 없음을 나타냅니다.
- 방향
계수의 부호는 관계의 방향을 나타냅니다. 두 변수가 함께 증가하거나 감소하는 경향이 있으면 계수가 양수이며, 상관을 나타내는 선이 위쪽 방향으로 기울어집니다. 한 변수가 증가할 때 다른 변수는 감소하는 경향이 있으면 계수는 음수이며, 상관을 나타내는 선이 아래쪽 방향으로 기울어집니다.
다음 그림은 변수 사이 관계의 강도 및 방향의 여러 패턴을 보여주기 위해 특정한 상관 값을 갖는 데이터를 표시합니다.
- 결과의 해석
r 값은 X 와 Y 가 완전히 동일하면 +1, 전혀 다르면 0, 반대방향으로 완전히 동일 하면 –1 을 가진다. 결정계수(coefficient of determination)는 r**2로 계산하며 이것은 X 로부터 Y 를 예측할 수 있는 정도를 의미한다.
일반적으로,
*음적 선형관계는 두 계수가 서로 반비례 관계에 있음을 의미
- r이 -1.0과 -0.7 사이이면, 강한 음적 선형관계 (이미지: P = -1)
- r이 -0.7과 -0.3 사이이면, 뚜렷한 음적 선형관계(이미지: -1<p<0)
- r이 -0.3과 -0.1 사이이면, 약한 음적 선형관계(이미지: -1<p<0)
- r이 -0.1과 +0.1 사이이면, 거의 무시될 수 있는 선형관계(이미지: p=0)
- r이 +0.1과 +0.3 사이이면, 약한 양적 선형관계(이미지: 0<p<1)
- r이 +0.3과 +0.7 사이이면, 뚜렷한 양적 선형관계(이미지: 0<p<1)
- r이 +0.7과 +1.0 사이이면, 강한 양적 선형관계 (이미지: P = 1)
로 해석한다.
상관 계수를 해석하려면 다음과 같은 점을 고려하십시오.
- 상관 계수만을 기초로 하여 한 변수의 변화가 다른 변수의 변화를 유발한다는 결론을 내리는 것은 적절하지 않습니다. 적절히 통제된 실험에서만 인과 관계를 확인할 수 있습니다.
- Pearson 상관 계수는 극단 데이터 값의 영향을 상당히 많이 받습니다. 데이터 집합에 나머지 값들과 매우 다른 값이 하나 있으면 상관 계수의 값이 크게 변경될 수 있습니다. 따라서 극단값의 원인을 식별해야 합니다. 모든 데이터 입력 또는 측정 오류를 수정합니다. 비정상적인 일회성 사건과 연관된 데이터 값을 삭제합니다(특수 원인). 그런 다음 분석을 반복합니다.
- 낮은 Pearson 상관 계수는 변수 사이에 관계가 없다는 것을 의미하지 않습니다. 변수 사이에 비선형 관계가 있을 수도 있습니다. 비선형 관계를 그래픽으로 확인하려면 산점도을 생성하거나 적합선 그림을 사용하십시오.
참고자료 링크:
'AI_학습노트 > 관련 용어' 카테고리의 다른 글
_05.KDE (커널밀도추정: Kernel Density Estimation) (0) | 2021.06.28 |
---|---|
_04.[관련용어]빅오 표기법 (0) | 2021.03.09 |
_03.Normalization/ Standardization/Regularization? (0) | 2021.02.22 |
_02.하이퍼 파라미터hyper parameters (머신러닝) (0) | 2021.02.13 |
_01.[관련용어]Norm (0) | 2021.02.12 |