“苏集创”是依托18新利体育 国家技术转移中心,紧密围绕苏州产业创新集群布局,以18新利体育 等国内外知名高校、科研院所、技术创新中心的集成创新成果为标的,构建科技、产业、资本深度融合的成果发布平台。
本期向大家推介的是18新利体育 计算机科学与技术学院陈文亮教授团队的项目:《面向表单图像的文字识别与智能信息处理平台》
陈文亮教授:18新利体育 计算机科学与技术学院 教授,博士生导师,主要研究方向:包含语言分析、信息抽取、知识图谱。目前主要专注于建设基础语言分析平台和构建知识图谱。
《面向表单图像的文字识别与智能信息处理平台》
应用产业领域:人工智能、电子信息
技术成熟度:已开展行业应用
专利情况:已授权专利三项
成果简介:
18新利体育 智能信息处理平台的目标是能处理多模态文字数据,精准分析语言内部结构,对人类语言进行深层理解,以支持各种应用需求。系统可以处理多种非结构化数据,比如说明书、技术标准、车间工单等纸质文档或电子文档。把图像识别技术(OCR)和自然语言理解技术(NLP)相结合,从表单图像中抽取关键要素信息。在此基础上,我们搭建了包括知识图谱问答 (KBQA)、常见问题检索 (FAQ)、对话 (Chatbot)在内的智能问答及对话系统、以及面向大数据的文档信息抽取系统。能够对给定的自然语言问题通过查询、推理提供精准满意的答案,和面向大规模文档提供信息抽取和舆情分析等服务。目前已经向多家公司提供各项相关服务。
创新要点:
1)可处理印刷体和手写体混合的图像文件,抽取关键要素信息。
2)利用自然语言理解技术深层理解所抽取的要素信息,并建立它们之间的联系,构建知识图谱。
3)能对给定自然问句进行理解,通过查询、推理提供精准满意的答案。
4)实现基于知识图谱的问答系统和常见问题检索系统。
5)提供面向大规模文档的信息抽取和舆情分析服务。
技术指标:
1)中文命名实体识别正确率95%以上。
2)关系抽取正确率80%以上。
3)事件抽取正确率80%以上。
4)知识图谱问答正确率85%以上。
其他说明:
1)CCKS2021面向金融领域的事件因果关系抽取第四名(技术创新奖)
2)2021语言与智能技术竞赛(LIC):多形态信息抽取任务三等奖。
3)CCKS2020金融事件要素抽取任务:第1名
4)CCKS2019中文知识图谱问答KBQA任务:第2名&技术创新奖
5)2019年搜狐内容识别算法大赛:亚军
6)CCL2018 中移在线客服领域用户意图分类:第一名
7)CCF-CIDB2017 情感分析任务:三等奖