领域实例迁移的交互文本非平衡情感分类方法
【作者】
田锋
兰田
CHAO
Kuo-Ming
吴凡
郑庆华
高鹏达
西安交通大学陕西省天地网技术重点实验室
西安710049
西安交通大学电子与信息工程学院
西安710049
考文垂大学计算机科学与技术系
英国考文垂CVI2JH
【关键词】
交互文本
非平衡情感分类
多领域
实例迁移
【摘要】针对交互文本句子短、成分缺失、多领域下类分布不均衡导致的高维、特征值稀疏、正样本稀少的难点,提出面向目标数据集实例迁移的数据层面采样方法。该方法提出目标数据集和源数据集共性特征的Top-N信息增益和值占比函数,选择评价两个数据集实例相似度的特征;提出目标数据集和源数据集特征空间一致性处理方法,克服两者特征空间不一致的问题;提出分领域的实例选取与迁移方法,克服多领域下的类分布不均衡问题。实验结果表明:该方法有效缓解了交互文本的非平衡问题,使支持向量机、随机森林、朴素贝叶斯、随机委员会4个经典分类算法的加权平均的接收者运行特征曲线(receiver operating characteristic,ROC)指标提升了11.3%。
上一篇:面向社交网络中多背景的信任评估模型
下一篇:采用MapReduce模型的甚长基线干涉测量并行处理方法