결정트리 모델

Yeju Ham
4 min readMay 3, 2021

--

  1. 결정트리의 트리형성 방법

결정트리는 회귀/분류문제 모두에 적용이 가능하다.

결정트리 학습은 ‘노드’(트리의 각 박스)의 분할하는 것을 의미한다. 이 분할이 어떻게 이루어지냐에 따라서 각각 다른 모양의 트리가 될 것이다.

결정트리의 비용함수를 정의하고 이를 최소화하도록 분할하는 것이 트리모델 학습 알고리즘이다. 이 비용함수로는 지니불순도/엔트로피가 있다. 불순도가 높다는 것은 여러개의 범주가 섞여있는 것(45,55)을 말하며 불순도가 낮다는 것은 한 개의 범주만 있는 (90,10)을 의미한다. (엔트로피도 같다) 노드를 분할하는 시점에서 비용함수를 줄이는 분할특성과 분할지점을 찾아내는 프로세스가 필요한데, 이 때 비용함수를 선택하는 기준은 순수도가 최고가 (즉 정보획득이 최대가)되게 하는 것이다. 쉽게 말해 이 비용함수 한 번으로 분류가 확실하게 잘 되게 만드는 것을 선택한다.

2. 트리의 과적합

트리는 분류를 끝까지 하게 되면(깊이가 깊으면) 모든 데이터 샘플들이 모두 각자의 노드 속하게 되어 과적합이 일어난다. 그렇기에 결정트리모델은 과적합이 일어나기 쉬운 알고리즘이다. 따라서 트리의 복잡도를 줄이기 위해서는 하이퍼 파라미터를 조정해 줄 필요가 있다. 아래는 결정트리모델의 대표적인 매개변수들이다. 이 파라미터를 조정함으로서 훈련정확도와 검증정확도가 크게 차이나지 않게 만들어야 한다.

  • min_samples_split : 중간노드(internal node)를 가르는데 필요한 최소한의 샘플 수
  • min_samples_leaf: 말단노드(external node)에 최소한으로 존재해야 하는 샘플 수
  • max_depth :트리의 최대 깊이

3. 결정트리모델의 특성 중요도(feature importance)

선형모델의 회귀계수(coefficient)와 달리 특성중요도는 항상 양수값을 가진다.

4. 결정트리의 이점

선형모델과 달리 특성상호작용(feature interactions), 비선형, 비단조(non-monotonic)특징을 가지고 있는 데이터 분석에 용의하다.

  • 특성상호작용:
  • 선형모델에서는 특성들이 서로 높은 상관관계를 가지고 있으면 다중공선성 문제가 (근무시간-야근시간 같은)생길 수 있기에 각 특성이 독립적이야 했다. 그러나 트리모델은 이런 상호작용을 자동으로 걸러내준다.
  • 비선형:
  • 이런모양의 비선형 특징을 보이는 데이터에 선형회귀 모델을 적용시키면 위와 같은 모양이 된다. 그러나 결정 트리 모델을 적용 시키면 트리의 깊이에 따라 선에 더 적합이 되기 때문에 비선형 데이터도 학습 할 수 있다.
  • 비단조(non-monotonic)
  • 결정트리모델은 일정한 형태를 띄고 있지 않아도 적용이 가능하다.

--

--

Yeju Ham
Yeju Ham

Written by Yeju Ham

learner, writer, traveler, data science beginner with the whole passion

No responses yet