所属领域:智能装备
自然语言处理主要探讨如何利用计算机处理与运用自然语言,是人工智能的重要组成部分,属于计算机学科的前沿方向,同时也是《国家中长期科学和技术发展规划纲要(2006-2020年)》信息科学重点建设的学科领域。自然语言一直在社会、经济和国家安全等领域中扮演着重要角色。但是迄今为止,计算机的自然语言理解能力远逊于人类,远远不能满足当今信息化社会对自然语言的处理与运用需求。因此,为计算机理解自然语言探索新的分析方法和构建新的计算模型,从而大幅度提高计算机对自然语言的理解能力和处理效率,不仅可以有力推动信息科学的快速发展,而且能够为国民经济和社会发展做出重大贡献。
语义分析是自然语言处理的核心问题。2006年以来,本项目组一直从事汉语句子级和篇章级语义分析的基础研究,是国内最早最系统从事该项研究的课题组。特别是在汉语句子级语义分析方面,系统深入开展了命名实体识别、实体间语义关系识别、语义角色标注研究,在此基础上,研发了一个汉语句子级语义分析平台,各项性能提升了10-15%,整体性能提升了将近20%,处于国内外先进水平。首先,深入开展了基于树核函数和弱指导学习的命名实体间语义关系抽取研究,提出了基于上下文相关和模糊匹配的卷积树核函数、基于自举加权支持向量的标注传播弱指导学习算法;其次,提出了基于层次学习策略的实体间语义关系抽取,使用层次学习策略建立相关类之间的共性模型,以有效捕获相关类之间的共性信息;最后,全面开展了基于短语句法分析和依存句法分析的汉英动词性谓词和名词性谓词语义角色标注研究,提出了一种自底向上的可扩充句法分析模型,并将之成功应用于句法分析和语义角色标注的联合学习。
在汉语篇章级语义分析方面,主要开展了话题结构理论(特别是中心理论)的研究,探索了基于中心理论的汉语实体与事件指代消解;针对汉语广泛存在的缺省现象,深入探索了基于主位述位理论的汉语实体与事件零指代消解研究;在此基础上,研发了基于话题结构理论的国内首个汉语篇章级语义分析平台。
截至2016年底,本项目组在该项研究中获得NSFC项目18项(包括重点项目1项)和863(子)项目2项,发表SCI源期刊论文20篇,CCF A类国际会议论文24篇,CCF B类国际会议论文38篇,据Google Scholar统计论文引用将近4000次,在国内外有了很强的影响力和话语权,处于领先地位。