Principal Component Analysis (PCA)란?

티스토리 뷰

AI & 머신러닝/개념 정리

provbs 2023. 2. 10. 12:21

출처 edwith 컴퓨터비전, 머신러닝, 딥러닝을 이용한 의료영상분석 박상현 교수님 강의를 베이스로, 인터넷의 다양한 웹사이트를 보고 얻은 정보들을 추가로 넣어 정리한 노트입니다.

1. 사용목적

- Dimensionality Reduction 을 진행했을때,

- 예를 들어 2D데이터에서 한 축을 제거해서 1D로 만들때, 데이터가 한 축으로 "투영"되게 된다.

- 이 때, 투영된 데이터들의 분산을 최대화 시켜주는 "축"을 찾아주는 것이 목적

- 위의 사진 처럼 z1으로 투영시켜서 1D로 만들어 주는 것보다

- 우측 위의 사진의 점선처럼, 투영된 데이터의 분산을 최대화 시켜주는 축 (1D 선 위에서 데이터들끼리의 간격이 최대화 되는 축)을 찾아주는 것이 목적이다.

- 데이터가 가장 많이 흩뿌려져있는 축을 찾자!

2. 사용법

- Training set: x1, x2, .... xn이 있을 때 (여기서 x는 벡터이다)

- 평균을 구해준뒤

- 각 x에서 평균을 빼서 차이를 계산하게 된다. = dx

- 구한 dx값으로 covariance matrix를 계산할 수 있다.

- eigenvectors를 구해서 차원을 줄여줄 수 있다.

- eigenvectors로 원래 차원으로 복원도 가능하다.

솔직히 수학적인 부분은 이해가 잘 안된다...

더 자세하게 어떤 계산으로 결과값이 나오는지 궁금하신 분들은 아래의 링크를 참조해서 공부해보시는 걸 추천드린다.

Hebbian Learning (0)	2023.06.09
Active Shape Model (0)	2023.02.10
Atlas based / Patch-based / Label fusion (0)	2023.02.10
Graphical Model 이란? (0)	2023.02.09
Decision tree & Minimum-redundancy-maximum-relevance란? (0)	2023.02.08

공지사항

최근에 올라온 글