r 주성분분석 예제

 

안녕하세요 모델 빌드의 경우 결과 30개 구성요소를 독립 변수로 사용합니다. 각 구성 요소는 각 예측 변수에서 파생된 주 성분 점수로 구성된 벡터입니다(이 경우 50이 있음). 각 벡터의 주 성분 점수에 대한 prin_comp$회전을 확인합니다. 이 기술은 데이터 집합의 차원을 축소하여 분석, 시각화 및 해석이 더 쉬워집니다. `중요`로, 나는 당신이 변수 중요성을 측정에 대해 이야기하고 있다고 가정합니다. 이 경우 회귀에서 p 값, t 통계를 찾을 수 있습니다. 가변 선택의 경우, 회귀는 전방 선택, 뒤로 선택, 단계 현명한 선택 등과 같은 다양한 접근 방식을 갖추고 있습니다. 참고: 부분 최소 정사각형(PLS)은 PCA에 대한 감독된 대안입니다. PLS는 주 성분을 결정하기 위해 응답 변수와 밀접한 관련이 있는 변수에 더 높은 가중치를 할당합니다. 첫 번째 주성분은 데이터에 가장 가까운 선즉 데이터 요소와 선 사이의 제곱 거리의 합을 최소화합니다. 또한, 생산에서 최종 모델의 구현은 우리가 항상 전에 점수를 매기기 전에 구성 요소를 계산해야하기 때문에 매우 지루합니다.

일부 대수를 수행하면 mth 주성분에 의한 분산(PVE)의 비율이 방정식을 사용하여 계산됩니다. 관찰 횟수의 제곱근을 곱합니다. 그런 다음 각 관측 벡터에 대해 주 성분이 계산됩니다. 첫 번째 고유 벡터에 (-1)의 배율 계수배가 곱되어 prcomp() 함수에 의해 보고된 징후가 표시됩니다. prcomp() 함수를 사용하여 상관 행렬을 사용하여 주 성분 분석을 수행하려면 배율 인수를 TRUE로 설정합니다. 그러나 크기 조정이 바람직하지 않은 경우가 있을 수 있습니다. 예를 들어 데이터 집합의 모든 변수에 동일한 단위가 있고 분석가가 결과에 대한 분산에서 이러한 차이를 캡처하려는 경우를 예로 들 수 있습니다. 살인, 폭행, 강간은 모두 100,000명당 발생시 측정되기 때문에 결과를 해석하는 방법에 따라 합리적일 수 있습니다. 그러나 UrbanPop은 전체 인구의 백분율로 측정되기 때문에 UrbanPop의 가변성을 살인, 폭행 및 강간과 비교하는 것은 의미가 없습니다. PCA의 속성은 우리의 구성 요소가 표준 편차 (Eigenvalues)와 관련하여 가장 큰 것에서 가장 작은 것으로 정렬된다는 것을 기억하십시오. 그래서 이들의 이해하자 : 당연히 말했다.

회귀에 사용되는 PCA는 PLS (부분 최소 제곱)로 알려진 감독 된 접근 방식의 형태를 취합니다. PLS에서 응답 변수는 주 성분을 식별하는 데 사용됩니다. 이 자습서에서는 PCA사용을 시작했습니다. 회귀, 분류 및 클러스터링을 포함한 많은 통계 기법을 주 성분 사용에 쉽게 적용할 수 있습니다. 이러한 기술은 이 자습서에 설명되지 않지만 향후 자습서에서 제공되며 대부분의 절차는 여기에서 배운 것과 유사하게 유지됩니다. 안녕하세요 매니쉬, 문서 vK 여기에 : 이러한 다른 용도에 대한 우리의 미래 자습서 뿐만 아니라 당신은 읽고 그들에 대해 자세히 알아볼 수 있습니다. 나는 당신의 기사를 사랑하지만, 하나의 질문이 있습니다. PC 분석을 위한 Python에서는 누락된 값이 대치되고 범주형 변수가 숫자로 변환되는 깨끗한 데이터를 사용했습니다. 파이썬에는 r에 사용되는 라이브러리와 유사한 라이브러리가 포함되어 있습니까? Fie 예제 / r 라이브러리 “Dummies”와 유사한 파이썬 코드는 무엇입니까? … 나는 r 코드와 유사한 파이썬 코드를보고 감사할 것입니다.

감사! 우리는 또한 우리가 실제로 단지 처음 두 구성 요소와 분산의 60 % 이상을 설명 할 수 있음을 알 수 있습니다. 다음을 플로팅해 보겠습니다: autoplot() 함수는 나중에 사용할 계산된 주 성분의 유용한 데이터 테이블도 생성합니다.