1. Frequent 패턴이 분류문제에서 더 효과적인 이유는 무엇일까?
저자는 논문에서 Frequent 패턴이 single feature와 비교해 분류문제에 있어 더 유용한 이유를 설명하고 실험을 통해 나타낸다. Frequent 패턴은 비선형 feature들의 결합으로 새로운 feature 공간의 표현력을 증가시킨다. 이는 single feature보다 frequent 패턴의 판별력(discriminative power)이 더 크다는 것을 의미하며 그 이유는 frequent 패턴이 데이터의 내재적인 의미를 더 많이 포함하기 때문이다. 저자는 이를 검증하기 위해 discriminative measure 중 하나인 Information Gain(이하 I.G)과 패턴 length의 상관관계를 실험하였고, 결과는 아래 그림과 같이 일치하였다.
2. Frequent 패턴을 생성할 때, minimum support threshold를 어떻게 선정할까?
저자는 앞서 Frequent 패턴이 classification에서 single feature보다 효과적임을 나타냈다. 그렇다면 Frequent 패턴을 생성할 때 중요한 파라미터인 minimum support threshold는 어떻게 선정할까? 저자는 이러한 물음을 I.G와 Fisher score를 예시로 minimum support threshold을 합리적으로 선정하는 방법에 대해서 이야기한다. I.G을 예시로, 가장먼저 I.G의 상한선(upper bound) 을 구하고 이를 단순화(Simplify)하여 I.G를 minimum support threshold 의 관계를 나타낸다. 이때 저자는 단순화를 위해 2개의 클래스만 있는 상황을 가정하였다.
3. 생성한 Frequent 패턴 중에서 고퀄리티의 frequent 패턴만 선별하는 방법은 무엇일까?
앞선 분석을 통해 합리적인 minimum support threshold 선정이 가능하다. 하지만 저자는 이에서 그치지 않고 생성한 frequent 패턴 중에서도 더 효율적인 frequent 패턴만 선택하는 방법을 제안한다. 이는 MMR에서 착안한 MMRFS 알고리즘이며 이 알고리즘은 class와의 연관성(Relevance)는 최대이면서 중복성(Redundancy)는 최소인 feature를 선별한다. MMRFS의 의사코드는 위 그림과 같다. MMRFS 알고리즘으로 gain이 최대인 frequent 패턴만 선별하는데, 이를 통해 선별된 frequent 패턴은 class와의 연관성은 크고, 다른 feature와의 중복성은 낮은 특징을 갖는다.
Experimental Results
MMRFS로 선별한 frequent 패턴은 SVM과 C4.5을 이용해 분류를 진행하였다. 대규모의 다양한 데이터셋으로 평가했을 때, 기존 single feature만 사용하거나 모든 frequent 패턴을 사용할 때 보다 저자가 제안하는 방법을 사용할 때 더 높은 정확도를 나타냈다. 또한 저자가 제안하는 방법은 frequent 패턴을 추가로 선별하기 때문에 frequent 패턴 모두를 사용할때와 비슷한 성능이지만 처리속도는 최대 100배 빨라졌다. 이를 나타내는 실험결과 테이블은 부록으로 첨부하였다.
Contributions
1. 저자는 frequent 패턴으로 분류문제를 해결하는 프레임워크를 제안하였고, 패턴 frequency와 predictive power사이의 관계를 분석적으로 나타냈다.
2. 저자는 Frequent 패턴 생성시 minimum support threshold를 선정하는 전략을 제안했다.
3. 저자는 효과적이고 효율적인 feature selection 알고리즘을 제안하였다.
Appendix
다양한 데이터셋에서의 확장성을 검증하는 동시에 FS frequent 패턴으로 인한 처리속도에서의 성능향상과 정확도를 비교한 결과