본문 바로가기

Review/Pattern Classification

[패턴인식]Chapter 5.6 Relaxation Procedures

 

 

(김경환 교수님의 자료와 수업을 통해 제작되었습니다.)

5.6 Relaxation Procedures

  앞장에서 정의한 J, criterion function은 유일하지 않고, 이에 다른 J에 대해서도 살펴보고자 한다.

  여기서도 missclassified된 샘플에 대해서 계산을 진행한다. 5.5장에서 다룬 함수는 기울기가 불연속적이었던 반면, 위 식은 기울기가 연속적이며, 탐색함에 있어서 부드러운 표면을 사용할 수 있다.

  하지만 여기서도 두 가지 문제점이 존재한다. 1) a=0이 되는 경우, 2) 샘플의 길이가 긴 벡터들에 의한 영향이 클 수 있다.(제곱을 취해주기 때문)

 

 이 두 문제를 한번에 해결할 수 있는 함수는 다음과 같다.

  분자를 통해서 a가 0이 되는 것을 방지할 수 있고, 분모를 통해 샘플 벡터의 길이가 긴 샘플에 대해 영향을 크게 받는 점 또한 막을 수 있다. 이 함수에 대해 $a$에 대한 gradient를 구하면 다음과 같다.

  이를 이용해 batch size에서 나타내면 다음과 같고,

  single-sample relaxation with margin은 다음과 같다.

  위 그림은 a(k)가 업데이트 되는 양을 보여준다. a(k)는 $a^ty^k=b$의 평면까지의 거리가 $\eta$의 비율만큼 이동하도록 된다. $\eta=1$이면 정확히 hyperplane에 이동될 것이다. 이를 수식적으로 해석하기 위해  $a(k+1)$식 양변에 $y^k$를 곱하고, b를 빼면 다음과 같은 식을 얻을 수 있다.

$\eta$가 1보다 작으면 여전히 $a^ty$가 b보다 작을 것이고, $\eta>1$이면 업데이트 될 $a^ty$의 값은 b보다 크게 될 것이다. (hyperplane을 넘어가게 된다.) 일반적으로 우리는 $\eta$의 범위를 0<$\eta$<2로 제한하여 문제에 접근하게 된다.


Reference

  • pattern classification by richard o. duda