采用类别相似度聚合的关联文本分类方法
【作者】
田丰
[1,2] ;
桂小林
[1,2] ;
杨攀
[1,2] ;
王刚
[1,2,3] ;
郭岳龙
[1,2]
【关键词】
文本分类
关联规则
类别相似度
聚合
【摘要】针对基于关联规则的分类方法在分类时仅考虑规则的置信度并使用规则修剪技术,导致分类器的分类精度难以进一步提高的问题,提出了一种基于类别相似度聚合的关联文本分类方法.该方法采用修改的χ2统计技术提取各类别的特征词;为保证规则匹配的精度和速度,使用CR-tree存储分类规则,并给出了CR-tree的构建与匹配算法;采用向量内积来计算文本类别分量与类别标志向量的相似度,进而使用规则置信度和类别相似度的聚合值作为文本分类的依据.基于实际网络文本的实验表明,该方法仅需提取30个特征词,分类结果的微平均值即可达到92.42%,优于未经剪枝的ARC-BC分类器及KNN、Bayes分类器;在分类耗时方面,该方法与未经剪枝的ARC-BC分类器持平,表明该方法引入的相似度与聚合值的计算开销在可接受的范围内.
上一篇:采用Petri网的业务性能分析方法
下一篇:一种新的散乱点云尖锐特征提取方法