2008년 1월 18일 금요일

Text Categorization 관련 논문 요약

아래 글은 2006년도 2학기 색인초록이론연구(연세대학교 문헌정보학과, 정영미교수님) 수업시간에 다루었던 논문에 대한 정리입니다.

1. A Comparative Study on Feature Selection in Text Categorization
- Yiming Yang, Jan O. Pedersen

[초록]
텍스트범주화의 통계적 학습에서 자질선정방법의 비교연구 - 자질 축소에 초점
5개의 방법이 평가되었음
- 문헌빈도(DF), 정보획득량(IG), 상호정보량(MI), 카이제곱(CHI), 용어강도(TS)
- 카이제곱과 정보획득량이 가장 효과적이었음
- IG 기준치는 k 최근접 이웃 분류기와 로이터 문헌집단을 이용했음. 98%까지 용어를 제거했는데, 분류 정확도가 향상되었음.
- DF 기준치도 유사했음
- DF, IG, CHI 용어 가중치가 비슷했으므로 비용문제가 있을 경우에는 가장 간단하고 비용도 적게 드는 DF가 좋음
- TS는 비교적 50%까지 자질을 축소했을 경우에 괜찮았는데, 축소 비율이 높아지면 경쟁력이 떨어짐
- 반대로, MI는 성능이 안 좋았는데, 저빈도를 선호하기 때문임
(정보검색에서는 DF가 낮은 용어의 상대적 정보량을 크게 보는데, 텍스트 범주화에서는 정보량이 거의 없다고 보기 때문에)

1.1. 분류기: kNN과 LLSF
- 선정이유: 성능이 좋은 분류기라서, 대량문헌 분류에 적합해서, LLSF는 선형, kNN은 비선형 분류기라 분류기에 따른 결과값 차이를 줄일 수 있음
1.2. 실험집단: Reuters-22173과 OSUMED 컬렉션 사용
- 선정이유: 두 집단의 분야(뉴스, 의학)와 크기(OSUMED가 큼)가 다름
1.3. 성능평가: 정확률과 재현률로 수행
1.4. 결과분석
- IG와 CHI는 kNN과 LLSF에서 모두 정확성을 상실하지 않는 축소가 가능
- TS는 50~60% 용어 제거 시점에서 최대값을 가짐
- MI는 희귀어에 대한 편향과 통계적 에러에 민감해서 성능이 낮음
- 기존 개념과 달리 DF가 높은 용어가 텍스트 범주화에는 의미가 있음

2008년 1월 17일 목요일

[Article]An Experimental Study on the Construction of Multidimensional thesaurus

[Article in Journal of Knowledge Processing and Management]
다차원 시소러스 구축에 관한 실험적 연구▶ full text(PDF)
박지영, 김태수

ABSTRACT
The Purpose of this study is to construct a multidimensional thesaurus basedon the concept definition and facet classification. The subject field of thisthesaurus is zymurgy, specifically beer brewage, since brewing words are soconcrete that they can be analyzed more precisely within their characteristics. Theconcept was analyzed for conceptual modeling, according to the internationalstandard(ISO 704: 2000(E)) and categorized into the basic categories, facets, andisolated by colon classification. After these process, a terminological database wasconstructed and characteristics were manipulated in order to sort and representthe conceptual relationships. By sorting or categorizing the characteristics in theterminology database with various criteria, we can dynamically show thehierarchical structures and conceptual relationships. This enables us to assignthe concepts to various categories according to their characteristics and constructa multidimensional concept system and reduce the confusion within the complexconceptual relationships. Moreover we can transform the representation of theconcept system according to the purposes or needs of the thesaurus user.

keyword : multidimensional thesaurus, subject indexing, knowledge organization,facet analysis, terminology

초록
본 연구의 목적은 개념정의를 이용해 용어가 가지는 속성을 추출하고, 패싯분류 체계를 이용해 디스크립터의 범주를 표현할 수 있는 시소러스를 구축하기 위한 것이다. 구축 과정에서는개념의 범위를 명확히 하기 위해 대상 용어를 양조학 분야로 한정했으며, 이 중에서도 일상생활에 친숙한 맥주 용어를 디스크립터후보로 선정하였다. 개념 분석 모델로는 국제표준인ISO 704:2000(E)를 이용하였고, 패싯분류에서는 기본패싯과 하위 구분지를 적용시켰으며, 분류된 데이터는 용어데이터베이스로 구축한 뒤 웹에서 검색할 수 있도록 만들었다. 따라서 본 시소러스는 각 용어마다 다른 언어형식으로 표현된 개념을 정규화시켜 제시함으로써 개념 간의 관계 설정이 가능하도록했으며, 각 디스크립터를 기본패싯과 구분지로 묶어서 각 개념의 계층관계를 밝힐 수 있고, 시소러스 사용자의 관점에 따라 적합한 상위어와 하위어 집단을 수시로 변경해서 추출할 수 있다. 따라서 시소러스를 사용하는 목적이나 필요성에 따라 변형되는 개념체계를 다차원적으로 표현할 수 있는 장점을 갖는다.

키워드
다차원 시소러스, 주제 색인, 지식의 구조화, 패싯분류, 전문용어