基于大规模语料库的高频汉字串互信息分布规律分析

基于互信息的词典构建和自动分词是典型的基于统计的中文信息处理技术.通过计算大规模中文文本语料库的高频二字串、三字串、四字串的互信息发现:第一,高频词的互信息并不是很高,词和短语之间的互信息分布不存在明显界限;第二,高频无效汉字串的互信息与词和短语的互信息也没有明确界限,词、短

基于大规模语料库的高频汉字串互信息分布规律分析

万方数据

基于大规模语料库的高频汉字串互信息分布规律分析相关文档

最新文档

返回顶部