中文信息处理技术专栏
1.句法分析
句法分析是文本信息处理的核心基础工作之一,它是在词法分析的基础上对文本进行基于内容分析与处理的重要手段。句法分析的主要任务是根据给定的语法,自动识别出句子所包含的句法单位以及这些单位之间的关系,通常是以句法树的形式来表示句法分析的结果。
句法分析的主要目的有两个:第一是确定句子所包含的“谱系”结构;第二是明确句子的组成成分之间的关系。例如:利用哈尔滨工业大学的语言技术平台对句子“扬州市江都区曾经是长江下游的一个县级市。”进行句法分析结果可以表示为图1。
图1 哈尔滨工业大学语言技术平台句法分析结果示例
2.句法分析的应用
句法分析并不面对最终用户,属于文本信息处理的基础研究,是保证各种文本分析和应用系统能够在内容层面上处理自然语言的核心技术之一。它在机器翻译、信息检索、信息过滤、信息抽取和语音识别等众多应用领域中都具有非常广泛的应用前景。
3.句法分析分类
句法分析方法可以简单地分为基于规则的方法和基于统计的方法两类。基于规则的方法需要专家构建规则,并且在遇到大规模真实文本时会因为语法规则覆盖度有限而效果差的问题,此外基于规则的方法开发的系统的可迁移性比较差。随着大规模标注树库的出现和共享(例如:宾州树库、清华句法树库、台湾“中研院”树库等),基于统计模型的句法分析方法开始兴起。各种机器学习方法的结合与使用,句法分析器的性能得以明显改善。统计句法分析模型本质上是一套面向候选树的筛选方法,它设置句法树的定量评价值,然后从各种候选句法树中找出最有可能的句法树作为结果。
4.主要难点
句法分析有两个主要难点:第一是歧义问题,在指定的语法下,一个句子往往有很多种句法分析结果,如何选择最优的结果?第二是搜索空间巨大的问题,句法分析的搜索空间和句子的长度存在指数级的增长关系,如何提高效率从而服务于实用系统?
5.句法分析的评测
句法评测分析的主要指标有准确率、召回率、交叉括号数。准确率表示分析正确的短语个数在句法分析的整个结果中所占的比重,也就是分析结果中和标准句法树中的短语完全匹配的个数占分析结果中所有短语个数的比例。召回率表示分析得到正确的短语个数在标准分析树全部短语个数所占的比例。交叉括号表示分析得到的某一个短语的覆盖范围与标准句法分析结果的某个短语的覆盖范围存在重叠且不存在包含关系(即构成了一个交叉括号)。
地址:苏州市十梓街1号 18新利体育 纵横研究所联系电话:0512-65243192电子邮箱:ckc@suda.edu.cn
Copyright © 18新利体育 纵横汉字信息技术研究所 2017