2008년 1월 18일 금요일

Text Categorization 관련 논문 요약

아래 글은 2006년도 2학기 색인초록이론연구(연세대학교 문헌정보학과, 정영미교수님) 수업시간에 다루었던 논문에 대한 정리입니다.

1. A Comparative Study on Feature Selection in Text Categorization
- Yiming Yang, Jan O. Pedersen

[초록]
텍스트범주화의 통계적 학습에서 자질선정방법의 비교연구 - 자질 축소에 초점
5개의 방법이 평가되었음
- 문헌빈도(DF), 정보획득량(IG), 상호정보량(MI), 카이제곱(CHI), 용어강도(TS)
- 카이제곱과 정보획득량이 가장 효과적이었음
- IG 기준치는 k 최근접 이웃 분류기와 로이터 문헌집단을 이용했음. 98%까지 용어를 제거했는데, 분류 정확도가 향상되었음.
- DF 기준치도 유사했음
- DF, IG, CHI 용어 가중치가 비슷했으므로 비용문제가 있을 경우에는 가장 간단하고 비용도 적게 드는 DF가 좋음
- TS는 비교적 50%까지 자질을 축소했을 경우에 괜찮았는데, 축소 비율이 높아지면 경쟁력이 떨어짐
- 반대로, MI는 성능이 안 좋았는데, 저빈도를 선호하기 때문임
(정보검색에서는 DF가 낮은 용어의 상대적 정보량을 크게 보는데, 텍스트 범주화에서는 정보량이 거의 없다고 보기 때문에)

1.1. 분류기: kNN과 LLSF
- 선정이유: 성능이 좋은 분류기라서, 대량문헌 분류에 적합해서, LLSF는 선형, kNN은 비선형 분류기라 분류기에 따른 결과값 차이를 줄일 수 있음
1.2. 실험집단: Reuters-22173과 OSUMED 컬렉션 사용
- 선정이유: 두 집단의 분야(뉴스, 의학)와 크기(OSUMED가 큼)가 다름
1.3. 성능평가: 정확률과 재현률로 수행
1.4. 결과분석
- IG와 CHI는 kNN과 LLSF에서 모두 정확성을 상실하지 않는 축소가 가능
- TS는 50~60% 용어 제거 시점에서 최대값을 가짐
- MI는 희귀어에 대한 편향과 통계적 에러에 민감해서 성능이 낮음
- 기존 개념과 달리 DF가 높은 용어가 텍스트 범주화에는 의미가 있음

댓글 없음: