大数据集成系统
产品概述
大数据集成系统是威廉希尔中文网站以20年的数据整合治理实践为基础,采用分布式并行计算架构自主研发的大数据ETL集成系统,具备高吞吐、高可用、高扩展特性,支持主流云平台、数据库、文件、消息对接、接口等数十种异构数据源,内置上百种数据处理组件和函数,为海量异构数据的超大规模数据仓库建设提供抽取、清洗、整合、入库等集成业务,消除数据孤岛,加快数据变现,实现数字化转型。
产品亮点
海纳百川,数据源适配广泛
支持市面上主流的云平台;支持涵盖OldSQL、NoSQL、NewSQL的各类数据库;支持文件自动下载 解压、解密处理;支持消息队列实时数据消费;支持WebService接口对接配置。
无代码开发,组件开箱即用
内置上百个组件和上百个公式,开箱即用;支持第三方按照组件开发标准定制业务性组件。
高吞吐处理能力,支撑百亿数据处理
采用多线程处理算法,高效的内存利用率;可拓展形成100节点以上集群、任务运行过程无需本地磁 盘IO操作,提升整体单位时间的大批量处理能力;支持TB/h级的大数据集成业务性能。
“火眼金睛”,全方位实时监控
支持对系统运行环境(如调度引擎、执行引擎)和流程作业业务的实时状态监控,通过图形可视化的 方式展现监控结果,极大降低了系统日常的维护成本。
“纵横”架构融合,运行持续稳定
并行架构提升单机处理能力的纵向线性扩展;分布式架构提升多机处理能力的横向线性扩展;支持 执行引擎快速部署及自动识别;支持资源调度中心双活模式;支持执行引擎宕机自动识别和任务转移;支持引擎集群管理节点自动竞选,确保系统稳定运行,任务执行不脱机。
自动容错,异常数据分流
采用异常数据分流机制,在不影响正常流程的情况下,自动将ETL处理过程中出现的异常数据转储 到指定位置,保证数据不丢失。在任务分发和执行的过程中,感知引擎状态,自动将异常设备的任务 转移到正常设备上重新执行,保证了任务执行高可用。
以点带面,知识赋能
支持一键生成数据处理模板,结合特有的环节分组及批注功能,实现专业人员知识沉淀,滴灌赋能执行人员,以点带面,形成知识辐射。
应用案例
大数据集成系统已经服务政府、政数局、水利厅、财政厅、海关总署、公安厅/局等多个用户部门,累计支撑2万+数据处理方案的稳定运行,共处理数据已达P级,用户遍及广东、天津、福建、安徽、甘肃、湖南、内蒙古、青海 等省份,其中天津某行局配置管理2000个大数据ETL作业,完成约600亿数据抽取、整合行务,当前运行稳定;福建某大数据治理项目采用混合异构数据库模式,分别与腾讯云、阿里云ODPS、Gbase 8a、亿榕文件存储等大数据库完成适配。