레이블이 Yiming Yang인 게시물을 표시합니다. 모든 게시물 표시
레이블이 Yiming Yang인 게시물을 표시합니다. 모든 게시물 표시

2008년 1월 18일 금요일

Text Categorization 관련 논문 요약

아래 글은 2006년도 2학기 색인초록이론연구(연세대학교 문헌정보학과, 정영미교수님) 수업시간에 다루었던 논문에 대한 정리입니다.

1. A Comparative Study on Feature Selection in Text Categorization
- Yiming Yang, Jan O. Pedersen

[초록]
텍스트범주화의 통계적 학습에서 자질선정방법의 비교연구 - 자질 축소에 초점
5개의 방법이 평가되었음
- 문헌빈도(DF), 정보획득량(IG), 상호정보량(MI), 카이제곱(CHI), 용어강도(TS)
- 카이제곱과 정보획득량이 가장 효과적이었음
- IG 기준치는 k 최근접 이웃 분류기와 로이터 문헌집단을 이용했음. 98%까지 용어를 제거했는데, 분류 정확도가 향상되었음.
- DF 기준치도 유사했음
- DF, IG, CHI 용어 가중치가 비슷했으므로 비용문제가 있을 경우에는 가장 간단하고 비용도 적게 드는 DF가 좋음
- TS는 비교적 50%까지 자질을 축소했을 경우에 괜찮았는데, 축소 비율이 높아지면 경쟁력이 떨어짐
- 반대로, MI는 성능이 안 좋았는데, 저빈도를 선호하기 때문임
(정보검색에서는 DF가 낮은 용어의 상대적 정보량을 크게 보는데, 텍스트 범주화에서는 정보량이 거의 없다고 보기 때문에)

1.1. 분류기: kNN과 LLSF
- 선정이유: 성능이 좋은 분류기라서, 대량문헌 분류에 적합해서, LLSF는 선형, kNN은 비선형 분류기라 분류기에 따른 결과값 차이를 줄일 수 있음
1.2. 실험집단: Reuters-22173과 OSUMED 컬렉션 사용
- 선정이유: 두 집단의 분야(뉴스, 의학)와 크기(OSUMED가 큼)가 다름
1.3. 성능평가: 정확률과 재현률로 수행
1.4. 결과분석
- IG와 CHI는 kNN과 LLSF에서 모두 정확성을 상실하지 않는 축소가 가능
- TS는 50~60% 용어 제거 시점에서 최대값을 가짐
- MI는 희귀어에 대한 편향과 통계적 에러에 민감해서 성능이 낮음
- 기존 개념과 달리 DF가 높은 용어가 텍스트 범주화에는 의미가 있음