“苏集创”18新利体育 创新成果推介(51)——基于大数据的面向开放域的智能问答技术

发布者:柳鑫发布时间:2023-06-01浏览次数:10

“苏集创”是依托18新利体育 国家技术转移中心(18新利体育 知识产权运营中心),紧密围绕苏州产业创新集群布局,以18新利体育 等国内外知名高校、科研院所、技术创新中心的集成创新成果为标的,构建科技、产业、资本深度融合的成果发布平台。


本期向大家推介的是18新利体育 计算机科学与技术学院洪宇、周夏冰、张民教授团队的项目:《基于大数据的面向开放域的智能问答技术》。


成果完成人:洪宇教授,18新利体育 计算机科学与技术学院教授、博士生导师。主要研究方向:研究兴趣集中在自然语言处理和人工智能,具体涉及信息抽取、篇章关系理解、多模态机器翻译及智能问答。

周夏冰副教授,18新利体育 计算机科学与技术学院副教授、硕士生导师,主要研究方向:自然语言处理、情感分析、机器学习。

张民教授,18新利体育 计算机科学与技术学院教授、博士生导师,主要研究方向:自然语言处理、机器翻译、人工智能。长期从事自然语言处理和机器翻译研究,聚焦语言认知智能中的自然语言分析、理解、翻译、交互和知识发掘的核心技术研究和产业应用。


基于大数据的面向开放域的智能问答技术


应用产业领域:电子信息

专利情况:

授权和受理发明专利5项,具体如下:

❶ 陈鑫,洪宇.一种问句复述识别方法、装置、设备及可读存储介质. CN201811441085.1, 2018.

❷ 朱芬红,洪宇,朱巧明.一种文本分类的方法、系统、设备及计算机可读存储介质. CN201910412742.8, 2019.

❸ 洪宇,刘梦眙,姚建民. 一种译文中术语错译的纠正方法、系统及相关装置. CN201810600694.0, 2018.

❹ 张民,朱芬红.一种融合答案信息的问题分类模型构建方法、装置和介质.CN201810750564.5, 2018.

❺ 洪宇,阮慧彬,孙雨,姚建民. 一种隐式篇章关系语料库的构建方法、装置和存储介质. CN201811258016.7, 2018.


成果简介:

本课题旨在基于大数据建立面向开放域的智能问答技术。通过依托大规模的知识图谱和语义关系分析,深度学习等核心技术,建立一个融合多源知识的统一问答理论表示体系和问答知识标注规范。同时,自动构造较大规模的问答对和问答知识库,并在此基础上,提出一套支持常识问答和机器阅读理解的系统。


创新要点:

该系统由两个子系统组成:a)基于问题复述识别的FAQ问答系统, b) 基于文章检索-答案抽取的问答系统。具体如下:

基于问题复述识别的FAQ问答系统

(1) 该系统基于粗排-精排的问题匹配架构,根据用户问题从数据库中匹配最相关的问答对。主要涉及ES检索,基于预训练模型的问题复述识别(QQ匹配)(系统FAQ智能问答界面见图1)。

图1 FAQ智能问答


基于文章检索-答案抽取的问答系统

(1) 例行爬取大量冬奥会相关新闻,用ElasticSearch索引。

(2) 部署机器阅读理解(MRC)模型,该模型在DuReader+冬奥标注样本构成的数据集上训练。

(3) 以用户问题为query,从冬奥新闻库中稀疏检索相关文章,通过MRC模型加粗答案。(见图2)

图2 问答社区


(4)采用chatango的第三方服务,用户可以在聊天室和志愿者进行实时沟通。(见图3)

图3 实时聊天室


技术指标:

问答可接受率1*:98.8%

问答对资源库:构建了DuReader-Robust 和东奥FAQ两个数据集,用于不同的任务。

查询响应时间:用户输出查询文字后获取推荐答案所需的时间,响应时间越短,则用户体验感越佳。该系统支持多并发提问,10并发响应速度低于0.05秒。