[IEEE] Discriminative Frequent Pattern Analysis for Effective

1. Frequent 패턴이 분류문제에서 더 효과적인 이유는 무엇일까?

저자는 논문에서 Frequent 패턴이 single feature와 비교해 분류문제에 있어 더 유용한 이유를 설명하고 실험을 통해 나타낸다. Frequent 패턴은 비선형 feature들의 결합으로 새로운 feature 공간의 표현력을 증가시킨다. 이는 single feature보다 frequent 패턴의 판별력(discriminative power)이 더 크다는 것을 의미하며 그 이유는 frequent 패턴이 데이터의 내재적인 의미를 더 많이 포함하기 때문이다. 저자는 이를 검증하기 위해 discriminative measure 중 하나인 Information Gain(이하 I.G)과 패턴 length의 상관관계를 실험하였고, 결과는 아래 그림과 같이 일치하였다.

2. Frequent 패턴을 생성할 때, minimum support threshold를 어떻게 선정할까?

저자는 앞서 Frequent 패턴이 classification에서 single feature보다 효과적임을 나타냈다. 그렇다면 Frequent 패턴을 생성할 때 중요한 파라미터인 minimum support threshold는 어떻게 선정할까? 저자는 이러한 물음을 I.G와 Fisher score를 예시로 minimum support threshold을 합리적으로 선정하는 방법에 대해서 이야기한다. I.G을 예시로, 가장먼저 I.G의 상한선(upper bound) 을 구하고 이를 단순화(Simplify)하여 I.G를 minimum support threshold 의 관계를 나타낸다. 이때 저자는 단순화를 위해 2개의 클래스만 있는 상황을 가정하였다.

3. 생성한 Frequent 패턴 중에서 고퀄리티의 frequent 패턴만 선별하는 방법은 무엇일까?

앞선 분석을 통해 합리적인 minimum support threshold 선정이 가능하다. 하지만 저자는 이에서 그치지 않고 생성한 frequent 패턴 중에서도 더 효율적인 frequent 패턴만 선택하는 방법을 제안한다. 이는 MMR에서 착안한 MMRFS 알고리즘이며 이 알고리즘은 class와의 연관성(Relevance)는 최대이면서 중복성(Redundancy)는 최소인 feature를 선별한다. MMRFS의 의사코드는 위 그림과 같다. MMRFS 알고리즘으로 gain이 최대인 frequent 패턴만 선별하는데, 이를 통해 선별된 frequent 패턴은 class와의 연관성은 크고, 다른 feature와의 중복성은 낮은 특징을 갖는다.

Experimental Results

MMRFS로 선별한 frequent 패턴은 SVM과 C4.5을 이용해 분류를 진행하였다. 대규모의 다양한 데이터셋으로 평가했을 때, 기존 single feature만 사용하거나 모든 frequent 패턴을 사용할 때 보다 저자가 제안하는 방법을 사용할 때 더 높은 정확도를 나타냈다. 또한 저자가 제안하는 방법은 frequent 패턴을 추가로 선별하기 때문에 frequent 패턴 모두를 사용할때와 비슷한 성능이지만 처리속도는 최대 100배 빨라졌다. 이를 나타내는 실험결과 테이블은 부록으로 첨부하였다.

Contributions

1. 저자는 frequent 패턴으로 분류문제를 해결하는 프레임워크를 제안하였고, 패턴 frequency와 predictive power사이의 관계를 분석적으로 나타냈다.

2. 저자는 Frequent 패턴 생성시 minimum support threshold를 선정하는 전략을 제안했다.

3. 저자는 효과적이고 효율적인 feature selection 알고리즘을 제안하였다.

Appendix

**Single feature/frequent 패턴(All)/frequent 패턴(FS) 결과**

다양한 데이터셋에서의 확장성을 검증하는 동시에 FS frequent 패턴으로 인한 처리속도에서의 성능향상과 정확도를 비교한 결과

Leave a Reply Cancel reply

질문 감사합니다. φ_db와 φ_llm을 곱하는 게 아니 더하는 등의 다양한 조합에 대해서는 논문에 따로 언급하고있지 않습니다. (Supplementary Material에도 따로 없네요)…

안녕하세요 우진님 댓글 감사합니다. 리뷰에서 말씀드렸다 싶이 예를들어 어떤 샘플이 현재 이미지 + 언어 프롬프트만 있고 2D 포즈/goal image가 없다면,…

좋은 질문 감사합니다. q–v를 각각 평가하거나 q와 여러 비디오를 한 번에 비교하는 방식은 계산적으로는 효율적이겠지만, LLM이 각 비디오를 절대적인 기준으로…

좋은 질문 감사합니다. X-CoT를 단순히 백본 모델의 오답을 고치는 '교정기' 라기보다는, 임베딩 유사도만으로는 잘 드러나지 않는 차이를 비교해 주는 보완…

안녕하세요 승현님, 좋은 리뷰 감사합니다! compatibility를 구할때 db 기반 점수와 llm 기반 점수의 곱을 사용한 이유가 llm이 가진 편향의 영향을…

[IEEE] Discriminative Frequent Pattern Analysis for Effective

Author: 김 지원

Leave a Reply Cancel reply

Conference Deadline

NEW POST

New Comment