利用信息传播特性的中文网络新词发现方法
【作者】
孙立远
周亚东
管晓宏
清华大学智能与网络化系统研究中心
北京100084
国家计算机网络应急技术处理协调中心
北京100029
西安交通大学智能网络与网络安全教育部重点实验室
西安710049
【关键词】
新词发现
信息传播
用户行为
时间特性
【摘要】针对已有方法识别出的网络中文新词生命周期短且很快不再为人们所用的问题,提出了一种基于信息传播特性的中文新词发现方法。该方法结合"新词传播范围广、持续时间长"的特点,从用户覆盖率、话题覆盖率和新词生命周期3个方面设计统计量;采用N-gram算法得到候选词串列表;用基于词频和词语灵活度的方法过滤垃圾词串。实验中以微博文本作为语料来源,与已有方法相比,用户特性使得新词识别的准确率提高了11%,话题特性使准确率提高了10%,时间特性使准确率提高了13%,综合用户、话题和时间的方法使准确率提高了16%。实验结果表明:该方法中的每个特性都提高了中文网络新词识别的准确率,而且同时考虑3种特性的准确率比只考虑单一特性的高。
上一篇:采用控制流监控的Cisco IOS指针攻击检测方法
下一篇:误码条件下的LDPC码盲识别算法