“苏集创”18新利体育 创新成果推介(49)——大数据建模服务平台构建

发布者:柳鑫发布时间:2023-05-18浏览次数:10

“苏集创”是依托18新利体育 国家技术转移中心(18新利体育 知识产权运营中心),紧密围绕苏州产业创新集群布局,以18新利体育 等国内外知名高校、科研院所、技术创新中心的集成创新成果为标的,构建科技、产业、资本深度融合的成果发布平台。


本期向大家推介的是18新利体育 计算机科学与技术学院房俊华副教授团队的项目:大数据建模服务平台构建


房俊华副教授,18新利体育 计算机科学与技术学院,研究领域:实时大数据处理、数据挖掘、分布式并行计算、轨迹数据处理


大数据建模服务平台构建


成果简介:

该项目合作旨在开发一套面向多样化大数据场景的数据处理、分析与管理平台。平台拟作为《全要素海量实时数据建模平台》项目的底层数据管理系统,以支撑建模平台的各项功能需求。由于建模平台同时面向各类终端用户提供实时服务,用户的操作种类繁多且交互性强,故平台对底层的数据管理系统提出了较高的性能要求。具体来说,数据管理系统需要同时满足如下特性:

(1)功能灵活性:系统需要支持常规的增删改、查询与连接等数据库类操作,对数据的定位效率要求较高。与此同时,系统需要支持多种数据预处理、数据分析等涉及对数据进行大范围扫描的高吞吐量应用。

(2)实时性:由于平台所具有的交互性,系统需要对用户定义的操作进行实时响应,并在数秒内完成操作返回结果。考虑到操作种类繁多且涉及的数据规模不同,其实时性的需求进一步加大了任务的难度。

(3)高可扩展性:由于平台面向不同用户群体,对用户的数据规模与格式均没有明确限制,故数据管理系统必须能够处理从数十条至上千万条记录规模的数据集,并满足一定程度的性能要求。因此,平台需要基于分布式架构,且采用高可扩展性的数据管理方案,以应对不同数据规模的应用。

(4)并发处理能力:考虑到平台的多用户场景,其数据管理系统需要同时满足多任务并发处理。在保证系统实时性的基础上,确保各任务间的独立性与数据访问安全。


创新要点:

(1)多源异构数据的存&取需求:传统的数据检索类功能普遍基于数据库开发,而数据库通过分块存储、建立索引等方式满足高速数据定位的同时,却一定程度上牺牲了数据库的可扩展性、数据结构的灵活性以及数据扫描的效率。因此,想要同时满足检索类与扫描类业务的性能要求,设计一套合理的数据存储与管理方案为主要的技术难点。

(2)大数据量下的实时性要求:由于平台具有实时交互的特性,却对数据量没有明确要求,因此在数据量较大的应用中如何满足用户的交互体验则成为该项目拟解决的另一大技术难点。其核心技术点在于针对不同功能设计性能优化方案(预处理、索引等),以及针对返回结果的阶段性结果返回策略等。

(3)并发环境下的实时性要求:在多任务并发的环境下,系统如何保证每个用户都可以在较短的时间内得到结果反馈(或部分结果反馈)?当不同任务的规模相差较大时,如何保证小任务不会因为大任务过分占用资源而影响响应速度?这些调度的问题也是影响用户体验的主要技术难点。


技术指标:

海量数据管理、实时分析性能

支持海量数据的存储与查询

针对各种功能组件均具备多并发的实时数据处理能力

支持复杂的数据分析需求

支持系统的可扩展

多样的功能组件

针对时空数据的分析与处理

支持多种复杂的数据库操作

影响数据处理的数据质量问题