基于TFIDF的特征选择方法

对传统TFIDF的特征选择方法的改进

第28卷第23期

V01.28

No.23

计算机工程与设计

ComputerEngineeringandDesign

2007年12月

Dec.2007

基于TFIDF的特征选择方法

王美方,

刘培玉,

朱振方

(山东师范大学信息科学与工程学院,山东济南250014)

摘要:在文本分类系统中,特征选择方法是一种有效的降维方法.在分析了几种常用的特征选择评价函数之后,将权值计算函数应用于特征选择,并基于改进的TFIDF方法提出了一种新的评价函数,它将类别信息引入到特征项中,提取出与类别相关的特征项,弥补了TFIDF的缺陷.实验证明该方法简单可行,有助于提高所选特征子集的有效性。关键词:特征选择9。术语频率 9逆文档频率;文本分类;评价函数中图法分类号:TP391

文献标识码:A

文章编号:1000.7024(2007)23-5795-02

Featureselectionmethodbased

on

TFIDF

WANGMei-fang,LIU

(CollegeofInformation

Abstract:FeatureselectioniS

Pei-yu,ZHUZhen—fang

ScienceandEngineering,ShandongNormalUniversity,Jinan250014,China)

tO

validmethod

reducethedimensionofvectorintextcategorizationsystem.Afteranalyzedseveral

gA3mnlonevaluationfunctionsforfeature

on

selection,termsweightfunctionisappliedinfeatureselection.Anewevaluationfunctionbased

improvedTFIDFmethodiSpresented.ThecategoryinformationiSintroducedtofeatureitemsinthisnewmethod.Thefeatureitems

are

ofrelevantcategories

It’S

selectedtomakeuptheshortcomingsoftheTFIDF.Experimentsprovedthatthemethodissimpleandfeasible.

the

advantageousinimprovingefficiencyoftheselectedfeaturesubset.

Keywords:featureselection;termfrequency;inversedocumentfrequency;textcategorization;

evaluationfunction

0引

间的维数,而且还有可能提高分类的精度。

文档频率是最简单的特征抽取技术,由于其具有相对于训练语料规模的线性计算复杂度,它能够容易地被用于大规模语料统计。但是在信息抽取研究中却通常认为DF值低的词条相对于DF值高的词条具有较多的信息量,不应该将它们完全移除。1.2互信息

互信.g(mutualinformation,MI),定义如下

随着网络信息资源的日益膨胀,在网络上能够快速、有效的发现资源和信息已经成为人们迫切的需要。文本分类作为文本数据的整理和组织的重要手段,成为解决以上问题的必经之路。这样,在文本分类系统中,通过一种有效的特征选择算法来降低维数,不仅能够减少系统的代价和运行时间,而且能够提高分类的精度。因此,从大量候选特征中找出代表问题空间的最优特征子集是十分必要的。

删f)=i“-IXIHc,)lo删

删f)=庐裂

』~‘,

l传统特征选择方法

目前对特征子集的选择算法一般是构造一个评价函数,对特征集中的所有特征进行评估,每个特征项得到一个评估分值,然后按照其分值的大小进行排序,取前N个特征项作为最优特征子集m。下面介绍常用的特征选择方法洲。

1.1

式中:只cj)——第i类文本在训练文本集合之中出现的概率,只f)——词f在训练文本集合中出现的概率,e(tlcf)——在第i

类的文本中t的出现概率。MI越大,词和类的共现程度越大。1.3信息增益

信息增益(informationgain,IO),定义如下

文档频率

词条的文档频率是指在训练语料中出现该词条的文档

jG(f)=一∑只cf)logⅨcMf)∑爿D}f)log尸(clJf卜

确要P(c,lt-)logP(c。It-)

IG(t)反映了该词为整个分类所提供的信息量。

数。采用DF作为特征抽取基于如下基本假设:DF值低于某个阈值的词条是低频词,它们不含或含有较少的类别信息。将这样的词条从原始特征空间中移除,不但能够降低特征空

收稿日期:2007-03 18

E-marl:wmf_qq@126.com

式中:哟——词t不出现的概率,mIf)——词f出现的情况下

文本属于C,类的概率,盹I刁——词f不出现的情况下文本属于

基金项目:山东省自然科学基金项目(Y2006G20)。

作者简介:王美方(1983一),女,山东潍坊人,硕士研究生,研究方向为信息过滤、网络安全;究方向为信息过滤、网络安全、数据库系统;

刘培玉(1960一),男,教授,硕士生导师,研

朱振方(1981一),男,硕士研究生,研究方向为信息过滤。

——5795 ——

万方数据 

Word文档免费下载Word文档免费下载:基于TFIDF的特征选择方法 (共4页,当前第1页)

你可能喜欢

  • 文本特征提取方法
  • 关键词抽取
  • 特征方法
  • 特征选择算法
  • 机器学习算法
  • 图像特征提取
  • 分类算法
  • 网络流量分类

基于TFIDF的特征选择方法相关文档

最新文档

返回顶部