1. Binning 기능

<aside> 💡 Smart Feature Engineering 숫자형 변수를 자동으로 가공하여 데이터 속의 비선형적 패턴을 발견합니다

</aside>

(1) Binning 이란?

Binning은 대표적인 변수 가공(Feature Engineering) 기법 중 하나로, 숫자형 변수를 범주형 변수로 변형하는 작업입니다. (숫자형 변수와 범주형 변수에 대해 자세히 알고 싶다면 여기를 클릭하세요)

숫자형 타입이라 할지라도 개념적으로 범주형으로 처리해야 할 경우가 있습니다. 예를 들어 직원을 나이에 따라 청년(34세 이하), 장년(35~49세), 중년(50세 이상) 등으로 나누는 작업도 Binning이라고 할 수 있습니다.

(2) Binning을 하는 이유?

Binning을 하는 이유는 숫자형 변수의 크고 작음에 따라 (1) 특정 레코드를 분류/구분하거나 회귀분석처럼 변수 간 선형적 관계를 찾는 알고리즘에서 발견하지 못한 (2) 비선형적 관계를 찾아내기 위함입니다.

아래 이미지는 [리더십 점수] 변수에 대해 Binning을 하기 전 후의 패턴 차이입니다.

                         [약한 선형적 관계 존재]

                     [약한 선형적 관계 존재]

                      [Binning 후 비선형 패턴 발견]

                  [Binning 후 비선형 패턴 발견]

첫 번째 이미지를 통해 직원 재직기간과 리더십 점수 사이에 매우 약한 선형적 관계(r: 0.05)가 존재하는 것을 알 수 있습니다.

그러나 두 번째 이미지와 같이 숫자형 변수인 리더십 점수를 범주로 자동 가공하여 통계적으로 유의한 비선형 패턴을 발견할 수 있습니다.

(3) HEARTCOUNT의 Binning 기능