期刊简介Magazine

《中国现代文学研究丛刊》是中国现代文学研究会会刊。主管单位是中国作家协会,主办单位是中国现代文学馆,并与中国现代文学研究会合编。编辑部设在中国现代文学馆。 ... 更多

投稿须知Instructions

一、来稿请直接寄至编辑部,勿寄个人,以免延误。 二、来稿须未曾在其他刊物发表,并符合本刊稿例格式。非经同意,电子邮件、软盘、传真件等不能作为正式投稿方式。 三、寄交... 更多

当前位置:首页 > 杂志导读 > 2014 > 09 >

基于语料信息度量的文本分类性能影响研究

作者: 李湘东 [1,2] ; 巴志超 [1] ; 黄莉 [3]

摘要:基于不同的分类算法针对特性迥异的语料数据进行分类,其分类效果往往不同。通过研究分类算法针对专门语料库与自建语料库分类效果各不相同的根本原因,提出一种提高分类性能的新途径。从不同语料库的自动分类对比入手,定义类别聚类密度、类别复杂度、类别清晰度三个指标对语料库信息进行度量,通过多因素方差分析考察三个指标与分类性能的关系,得出语料的各项指标对不同分类算法分类性能的影响关系,并提出一种基于类别清晰度的交叠类文本分类方法以验证指标的有效性。实验表明:该三个指标都在不同程度上影响着分类算法的分类性能。语料类别的聚类密度越高,复杂度越低,类别清晰度越高,其表现出的分类效果越好。


关键字: 语料库    自建语料    类别信息    分类算法    分类性能      


上一篇:论替代计量学在图书馆文献服务中的应用
下一篇:我国信息资源规划研究综述