순열중요도 (Permutation Importance)

Yeju Ham
May 5, 2021

--

각각의 피쳐들이 내가 원하는 타겟에 얼마만큼의, 그리고 어떤 영향을 주는지를 알아보고자 할 때, 특성별로 중요도를 살펴볼 수 있다.

  1. Feautre Importance(특성중요도)

특성중요도는 sklear 트리기반 분류기에서 바로 사용되기 때문에 속도가 빠르다는 이점이 있다. 그러나 문제는 cardinality가 높은 경우에는 결과가 잘못나올 수 있다는 단점이 있다.

2. drop-column Importance

이건 하나하나 모든 특성을 드랍하면서 정확도를 살펴보는 방법이다. 그러면 학습(fit)과 드랍을 피쳐의 개수 n만큼 반복해야 하기 때문에 상당히 귀찮고 비효율적인 방법이다.

3. Permutation Improtance

이 순열 중요도는 feature importance와 drop column의 중간 특성을 갖는 방법이다. 중요도는 내가 관심있는 특성에만 무작위로 노이즈를 주고 예측했을 때 정확도가 얼마나 감소하는지를 보고 그 특성의 중요도를 보는 방법이다. 아래 코드에서 그 예시를 보여준다.

이렇게 계산하는 것을eli5라이브러리에서 제공해준다.

--

--

Yeju Ham
Yeju Ham

Written by Yeju Ham

learner, writer, traveler, data science beginner with the whole passion

No responses yet