基于最大熵模型的观点句主观关系提取
2021-05-15
来源:小奈知识网
第36卷 第2期 Vo1.36 ・计算机工程 2010年1月 January 2010 No.2 Computer Engineering 博士论文・ 文章编号:l0o0—3428(20l0)02-_o004—o3 文献标谀码;A 中圈分类号t TP391 基于最大熵模型的观点句主观关系提取 樊娜,蔡皖东,赵煜 (西北工业大学计算机学院,西安710072) 摘要:提出一种提取中文观点旬中评价对象和评价词主观匹配关系的方法。分析观点句中评价词和评价对象的词性、词语位置,通过句 法分析获取语义特征,将2类特征应用于最大熵模型,提取观点旬的主观关系。实验结果证明,与取距离评价词语最近的词作为评价对象 的Baseline方法相比,该方法大幅度提高了准确率和F测试值。 关健词:评价对象;主观关系;最大熵;句法分析 Extraction 0f Subjective Relation in Opinion Sentences Based 0n Maximum Entropy Model FANNa,CAIWan-dong,ZHAOYu (College of Computer,No ̄hwestem Polyteqhnical University,Xi’an 710072) [Abstract]This paper presents a novel method of extracting subjecitve relation between opinion targets and opinion—bearing words in Chinese opinion sentences.This method analyzes lexical and part of speech information in the sentence.Syntactic analyzing is adopted tO achieve syntactic path information which is regerded as semantic feature.The two kinds of ̄ature are both applied in maximum entropy mode1.According tO this mode1.a玎subjective relations in the sentence are extracted.Experimental results show that htis method is better than Baseline method in precision rate and F—measure. [Key wordsl opinion traget;subjective relation;maximum entropy;syntactic analysis 近年来,文本情感分析作为一个新的研究领域正日益受 语义角色映射为评价对象。该方法可以分析复杂结构的句子, 到研究人员的关注,在网络信息安全、产品评价、客户关系 但是由于FrameNet中词语资源的有限性,有些评价词语没有 管理等方面得到广泛的应用。 包括在内,因此这类词语与评价对象的关系无法提取。 1相关研究 语言特点的差异使这些方法无法直接应用到中文文本 情感倾向主要通过文本中的观点旬来表达。观点旬是基 中。本文针对这一情况,提出了提取中文句子主观性关系的 于断言或评论并且带有个人情感和意向的抒发。以往的研究 方法,应用最大熵模型,以词性、位置和语义等特征进行主 主要集中在识别文本中的观点句、识别观点持有者、识别观 观关系提取,为解决中文情感分析中的这一基础问题提供了 点主题、判断观点句子的情感词等方面。 可用的方法。 在一个观点句中存在多个评价对象以及多个情感词语是 2评价词与评价对象主观关系昀提取 很普遍的语言现象。带有情感倾向修饰评价对象的词语,称 本文采用最大熵模型,通过在模型中应用基本特征和语 为评价词。一个句子中的不同的评价词语与各个评价对象之 义特征,获取观点句子中评价词与评价对象之间的主观关系。 问的匹配对应关系称为主观关系。这种主观关系是正确分析 2.1最大埔模墅 句子的情感倾向、识别句子主题的前提和基础。 最大熵模型广泛应用于分词、词性标注、词义排歧、机 目前在面向英文的研究中,研究者已经提出了一些判断 器翻译等自然语言处理的各个领域中。最大熵的主要思想是 句子中主观关系的方法。文献【l】通过建立语言模板提取主观 找到一个概率分布,它满足所有已知的事实,且不受任何未 关系,虽然该方法具有较高的准确性,但是需要手工根据不 知因素的影响。 同领域建立大量模板。 最大熵模型的目标是对于给定上下文C,计算出m的条 文献【2】基于模板建立规则库提取主观关系,通过规则定 件概率,即对p(mlc)进行评估,期望能够求出符合C条件的m 义模板各部分与评价对象和评价词语之间的对应关系,但是 的概率分布 J。最大熵模型要求p(mlc)在满足一定的约束条 该方法只能处理简单句型。 件下,必须使下面定义的熵取得最大值: 文献I3】提出先找产品特征词,然后找距离该特征词最近 基金项目:国家自然科学基金资助项目(60803151) 的形容词作为评价词的方法。但在实际的观点句子中,动词、 作者筒介:樊娜(1978--),女,博士研究生,主研方向:网络信息 名词、形容词都可以作为评价词语。 安全,自然语言处理;蔡皖东,教授,博士生导师;赵煜,博士 文献[4】提出基于FrameNet的提取方法,先找出评价词 研究生 语,然后进行语义角色标注,分析观点句子的语义结构,将 收稿日期:2009—08—07 E・mail:fnsea@mail.nwpu.edu.cn —— —— H(p)=一∑p(mIc)lbp(mIc) (1) c,sa 最大熵的条件概率可以用式(2)计算: 1 n p(m I c)=—=—L_IcJ exp(SiZ ̄f/=1 (c,m)) (2) z(c)=Zexp(Z, ̄,f/(c, )) (3) f=l 式(3)是归一化因子,其中, 是模型的特征; 是 的 参数,即每个特征函数的权值;特征 是一个二值函数,每 个特征包含了上下文的各种信息。参数 的值并不能直接得 到,需要通过迭代的方式计算其近似值。目前,使用最广泛 的是GIS迭代算法和IIS迭代算法。本文采用GIS算法实现, 迭代次数为100。 2.2模型特征的选取 最大熵模型的关键在于如何针对特定的任务为模型选取 特征集合。模型特征的选取需要通过特征选择算法加以解决。 假定所有特征的集合是F,特征选择算法要从中选择一个活 动特征集合S,活动特征集合要尽可能准确反映样本信息, 只包括那些期望可以准确估计的特征。为得到集合 ,通常 采用逐步增加特征的方法,每一次增加哪个特征取决于样本 数据。例如,当前的特征集合是 ,满足这些特征的模型是 c(s),增加一个特征,新的模型集合可以定义为C=( U,)。 在特征选择过程中,活动集合越来越小,模型集合越来越大。 由于评价词与评价对象的词特征反映了评价词与评价对 象的匹配关系,因此不同的评价对象与评价词之间的修饰关 系是有一定规律可循的,例如,“身材”与“高”、“矮”、 “胖”、“瘦”之类的词语搭配,而不会与“便宜”、“昂 贵”这些修饰“价格”的评价词语搭配。根据修饰关系具有 的匹配性,对于一个观点句子,首先提取该句中所有的评价 词语,形成集合{Et, ,…, ),然后提取该旬中所有的评价 对象,形成集合{0-,0z,…,D }。对于评价词语集合中的每 一个巨,根据特征函数 (D,{Dl,D2,…,ONl,E1)计算其条件 概率p(O I{Dl,02,…,oN), )。 通过式(4)可以确定与评价词语最之间具有对应匹配关 系的评价对象O: O=argmax[Y,X,F ̄(O,{0l,02,…, ),E)】 (4) i=I 提取观点句子的主观关系实际上可以看作是对句子中的 评价词语进行主观关系标注的过程。这个标注过程被看作是 一个事件,因此,由当前评价词及其上下文环境来确定一个 事件的特征集合。 根据影响当前评价词主观关系标注的各种因素,定义特 征空间为: (1)词性。当前评价词及其前后各2个词的词性。 (2)词。当前评价词的前后各2个词。 (3)当前评价词及其前后各2个词的语法语义信息。 根据这个特征空问,定义了模型训练中应用的2大类特 征:(1)基本特征,主要描述词语本身的特性。这类特征包括 词语特征、词性特征以及评价词语与评价对象之间的距离特 征等。(2)语义特征。 表1一表3分别描述了基本特征包括的词语特征、词性特 征和距离特征。基本特征不仅考虑了评价词和评价对象本身 及其词性,同时还将它们前后的2个词语都纳入特征考虑范 围内,因为其左右邻词在一定程度上体现了该词是否具有主 观含义。这样的特征选取可以有效解决否定词以及程度副词 对评价词语的影响,因为通常起修饰作用的否定词和程度副 词都位于评价词语前后2个词语范围的位置上。 表1词语特征 特征具体描述 评价词 评价词左前第1个词 评价词左前第2个词 评价词右后第1个词 评价词右后第2个词 评价对象 评价对象左前第1个词 评价对象左前第2个词 评价对象右后第1个词 评价对象右后第2个词 表2词性特征 特征名称 特征具体描述 P(WE】 评价词性 P(WE1) 评价词左前第1个词性 PfWE2) 评价词左前第2个词性 P(WE一1) 评价词右后第1个词性 PfWE-2、 评价词右后第2个词性 P(WO) 评价对象性 P(WO1) 评价对象左前第1个词性 P(WO2) 评价对象左前第2个词性 P(WO一1) 评价对象右后第1个词性 PfWO・2) 评价对象右后第2个词性 表3厦膏特征 特征名称 特征具体描述 P(E—O) 评价对象和评价词语的前后顺序关系 N1 评价词语和评价对象之问间隔的评价对象的个数 N2 评价词语和评价对象之间间隔的评价词的个数 D(E.0) 评价对象和评价词语问隔的词的个数 将程度副词作为特征考虑既可以在一定程度上反映评价 词语主观性的强弱程度,又可以有效缩短评价词和评价对象 之间的距离,因为距离越短,越容易进行正确的判断,而否 定词语可以改变评价词语的情感极性,对主观关系产生影响, 所以,必须考虑在内。距离特征主要描述评价词语和评价对 象在一个观点句子中所处的位置关系,距离越近,两者之间 越有可能存在主观匹配关系。 第2类语义特征主要描述词语在句子中的句法语义信 息。通过对观点句子进行句法分析,获得评价词语和评价 对象在观点句子中的语义信息,将其作为语义特征应用到模 型中。 首先,采用哈工大信息检索研究室的中文句法分析器对 观点句子进行分析,获得该句子完整的句法结构树,从中提 取评价对象与评价词之间的句法路径信息作为特征。这种路 径信息描述了评价词语与评价对象在句子语法结构中的位置 以及修饰关系,有助于正确判断句子中存在的主观关系。 在句法结构树中,任意2个节点之间的路径并不是唯一 的。同一句子中的评价词语和评价对象在句法树中可能存在 多条不同的路径,如果将这些路径信息全部引入模型训练中, 会大大影响模型的训练效率。为了解决这个问题,将评价对 象和评价词之间完整的路径信息划分为3个部分:路径 Path(E ̄O),路径Path(E)和路径Path(O)。为了明确表示这些 路径信息,需要定义句法分析树中的几个重要节点:E表示 评价词节点,O表示评价对象节点,Head(E-O)代表同时覆 盖E和O的节点。 表6逐步增加基奠特征量大麓结果 (%) 表4为语义特征的具体描述。 表4语义特征 特征名称 特征具体描述 节点Head(E‘o)到共左右孩子节点昀路径(选 P “(E-O) 。 取的孩子节点同时是E和O的父节点) 节点E到其任何一个祖先节点的路径(选取的 祖先节点同时是Head(E0)的孩子节点) .表6的实验数据表明,随着模型中使用特征的增加,虽 然查全率有所降低,但是查准率及F值都有明显的提高,表 明主观关系提取的性能在逐渐增强。当模型应用全部基本特 Path(E) 征时,查准率及F值的提高最明显,准确率提高了约l5个 P ntu) 节点O到其任何一个祖先节点的路径(选取的 祖先节点同时是Head(E.O)的孩子节点) 百分点,F值提高了约12个百分点。 在增加基本特征的基础上,在模型训练中再弓l入语义特 征,即本文提出的结合基本特征和语义特征的方法。实验结 在模型训练中,将这3条路径信息作为语义特征应用于 模型中,既保留了有效的路径信息,又将评价词与评价对象 之间的路径唯一化,提高了模型的训练效率。 语义特征在模型中的应用充分考虑了评价词语与评价对 象在句子结构中的位置信息、语法语义信息,能更准确地描 述句子中存在的主观关系。 3实验结果与分析 3.1数据集与评价标准 本文实验中最大熵模型采用的语料为中文手机产品评论 文本。首先从手机产品评论网(http://product.it168.corn/ newpinglurdcSpace_p1.asp?cType_code=0302)搜集整理手机 评论文本,并对所有评论认真审查,去除语言不规范的文本, 最终选出1 600篇文本。将所有语料分为2个部分,其中, 1 200篇作为训练语料,其余400篇作为测试语料集合 同 时手工标注所有语料文本中的主观关系,表示为<评价对象, 评价词语>的形式,作为实验对比标准。 性能评估基于3个重要指标:查全率( ),即正确识别出 的主观关系数与应被识别出的主观关系数之比;查准率(P), 即正确识别出的主观关系数与识别出的所有主观关系数之 ’DD 比;F测试值( ,即综合衡量指标,F= 。 ,十 3.2实验结果 本文实验采用Baseline方法先找出观点句子中的评价词 语,然后选择距离评价词语最近的名词实体作为评价对象。 实验目的是对比Baseline方法与本文方法在提取观点句子主 观关系时性能上的差异。 (1)Baseline方法实验 分别随机选取测试语料的30%,60%形成2个新的测试集 丁1和 ,分别在这2个测试集和全部测试语料集丁上进行 Baseline方法的实验。 表5为Baseline方法的实验结果。 表5 Baseline方法实验结果 (%) 表5中实验数据显示,Baseline方法的查全率较高,但 是查准率偏低。3次实验的平均查准率仅为39.01%,平均查 全率达到77.70%,平均F值为51.94%。而在实际应用中, 相对于查全率,查准率更重要。 (2)本文方法实验 为了探测各类特征对性能的影响,首先在Baseline方法 的基础上逐步增加本文提出的基本特征:词特征,词性特征, 距离特征,分别进行实验,实验结果见表6。 ——6_- 果如表7所示。 表7本文方法与Baseline方法性蕾比较(%) 实验结果表明,与Baseline方法相比,增加基本特征后, 模型提取的查准率和F值均有大幅度的提高,而在此基础上 增加语义特征后,模型的查准率达到71.23%,F达到了 68.32%,性能提高显著,综合评价指标F与Baseline方法相 比提高了约l7个百分点。 上述实验数据及分析表明,与Baseline方法相比,本文 方法不仅考虑了评价词和评价对象本身的词汇信息,还根据 句法分析将语义信息作为特征应用到了最大熵模型中,能更 准确有效地提取观点句子的主观关系。 4结束语 本文提出了基于最大熵模型的中文观点句主观关系的提 取方法。通过句法分析,得到观点句子中评价对象和评价词 的语义信息,将其作为语义特征,同时将词语自身的信息以 及评价词语和评价对象之间距离等信息作为基本特征,将这 2类特征结合共同应用到最大熵模型中,从而获取观点句子 中评价对象和评价词语之间的匹配关系。主观关系的提取和 分析对于中文情感分析和意见挖掘等研究具有重要意义。在 后继的研究中将对句子进行进一步的语法、语义分析,寻找 更有效的特征以提高性能。 参考文献 [1l Nasukawa T,Jeonghee Y.Sentiment Analysis:Capturing Favorability Using Natural Language Processing[C]//Proc.of K—CAP’03.Sanibel Island,Florida,USA:Is.n.],2005:23—35. [2】Popescu A M,Etzioni O.Extracting Product Features and Opinions from Reviews[C]//Proceedings of EMNLP’05.Vancouver,Canada: Is.n.】,2005:145—153. [3]Liu Bing,Hu Minqing,Cheng Junsheng.Opinion Observer: Analyzing and Comparing Opinions on the Web[C]//Proceedings of hte 14th Intemationa1 Conference on World Wide Web.【S.1.】: IEEE Press,2006:221—229. 【4]Kim Soo—Min,Hovy E.Extracting Opinions,Opinion Holders,and Topics Expressed in Online News Media Text[C]//Proc.of Conf.of Association for Computational Lingustics.is.1.】:IEEE Press,2007: 318—327. [5]Chen S F,Rosenfeld R.A Gaussian Prior for Smoothing Maximum Entropy Models[D].School of Computer Science,Carnegie MeHon University,1999. 编辑张正兴