苏宁数据中台建设与技术实践
苏宁数据中台建设与技术实践 公众号:数字化转型工作室公众号:数字化转型工作室 目录 数据中台建设背景1 2数据中台总体架构 3 数据仓库构建 4统一维度库构建 5 数据服务构建 6未来展望 公众号:数字化转型工作室公众号:数字化转型工作室 第一部分 数据中台建设背景 PART 01 公众号:数字化转型工作室公众号:数字化转型工作室 数数据据中中台台建建设设前前情情况况 数 仓 交易数据集市物流数据集市流量数据集市 诸葛天眼鹰眼易道… 数据采集 开放平台 数据集市 … 缓冲层 基础层 汇总层 公众号:数字化转型工作室公众号:数字化转型工作室 存存在在的的痛痛点点 数据孤岛 数据集市间数据信息共享存在屏障, 数据难以高效共享,也带来业务重 复开发的情况 痛 点 开发成本高 缺少统一数据分析引擎,数据团队需 要各自选择和搭建分析引擎,开发使 用成本高 指标孤立 指标缺少体系管理,往往易出现不 同产品间指标数据不一致 数据分析门槛高 缺少数据服务市场,业务分析往往需 要从底层分析,难以直接使用其他团 队沉淀业务数据 维度孤立 缺少维度定义和管理,不同产品间 常出现分析视角不一致 数据产品多 业务分析使用时,常需要在不同产 品间频繁切换 公众号:数字化转型工作室公众号:数字化转型工作室 第二部分 数据中台总体架构 PART 02 公众号:数字化转型工作室公众号:数字化转型工作室 数数据据中中台台架架构构 离线计算(Hadoop、Spark、Hive…)实时计算(Flink、SparkStreaming…)存储计算引擎 DW汇总 DW明细 应用层 统 一 维 度 近源ODS 易购 线上 门店 线下 供应 链 零售 云 财务客服物流金融… 交 易 流 量 会 员 营 销 职 能 物 流 客 服 … 销售 分析 流量 分析 店铺 分析 会员 分析 物流 分析 客服 分析 供应 链分 析 … 标签 用户标签 商品标签 人群标签 行为标签 商户标签 … 数据应用引擎 数据应用 数据分析引擎数据服务引擎可视化引擎维度服务引擎 数据分 析报表 大屏直 播 精准营 销 精准广 告 个性化 推荐 … 个性化 搜索 开发工 具平台 离线计算 实时计算 可视化计算 数据探查 数据集成 维度服务 OLAP服务 指标服务 报表服务 数据 资产 元数据 数据标准 数据质量 数据血缘 数据生命周 期 数据模型 数据治理 数据安全 资产地图 公众号:数字化转型工作室公众号:数字化转型工作室 第三部分 数据仓库构建 PART 03 公众号:数字化转型工作室公众号:数字化转型工作室 数数仓仓整整合合构构建建思思路路 指指标标整整合合 维维度度整整合合 业业务务矩矩阵阵 DW明明细细模模型型 DW汇汇总总模模型型 盘点所有数据产品指标,整 合治理不合理指标 梳理数据域和业务过程,确认业 务过程分析维度和指标 基于数据域+分析主体构建业 务主体汇总模型 盘点所有产品指标分析维度, 整合治理不合理维度 基于数据域+业务过程构建 DW明细模型 公众号:数字化转型工作室公众号:数字化转型工作室 数数仓仓模模型型整整合合 通用指标 通用维度 近源ODS DW明细层 应用层 事务事实表 周期快照事实 表 累计快照事实 表 DW汇总层 商品主体汇 总 店铺主体汇 总 供应商主体 汇总 业 务 主 体 … 通用业务下沉DW 业 务 过 程 数 据 域 数 据 域 通过DW扎口维度、指标计算口径 公众号:数字化转型工作室公众号:数字化转型工作室 实实时时数数仓仓构构建建 爬虫数据 业务系统埋点采集 系统日志 数据集成 工具 数据应用(指标服务及数据产品服务) 实时计算 flink spark Streaming storm 应用层 DW汇总层 DW明细层 主题+业务过程模型 主题+业务主体模型 应用模型 kafka kafka hbase olap 近源ODS 公众号:数字化转型工作室公众号:数字化转型工作室 数数仓仓bitmap应应用用 生成唯一 数字编码 去重 指标 汇总 用户会员分析 全局数据字典 DW明细层 交易明细表 用户访问明细表 生成--会员字典编码 生成--设备字典编码 . DW汇总层 店铺主体汇总表 商品主体汇总表 … 买家数bitmap 订单数bitmap 用户数bitmap 新老会员分析复购会员分析 精确去重指标计算无法实现再汇总 人群分析留存会员分析 … 多维会员交叉分析 难 点 难 点 公众号:数字化转型工作室公众号:数字化转型工作室 第四部分 统一维度库构建 PART 04 公众号:数字化转型工作室公众号:数字化转型工作室 统统一一维维度度库库建建设设背背景景 标准 • 维度业务口 径不统一, 缺乏有效的 管理流程来 对其进行管 理和约束, 维度建设存 在重复和歧 义 成本 • 对于维度服 务的开发, 各个产品中 心需要各自 实现,造成 开发成本重 复投入。例 如公司、城 市的维度。 工具 • ETL开发人 员/产品人员, 存在手工配 置表需要维 护,缺乏快 速开发工具。 平台 • 业务人员想 查询维度信 息,缺乏可 靠的公共平 台去快速方 便的查询。 公众号:数字化转型工作室公众号:数字化转型工作室 统统一一维维度度库库建建设设目目标标 • 根据业务 需求,提 供快速定 义维度的 功能,保 证维度的 唯一性 • 完善的维 度管理流 程,对维 度新增, 变更,下 线全生命 周期管理 • 提供高效、 稳定的维 度查询服 务,满足 高并发的 查询 • 建立维度 全链路统 一的数据 监控体系, 提升平台 数据安全 维度开 发管理 维度信 息管理 维度数 据服务 维度监 控管理 公众号:数字化转型工作室公众号:数字化转型工作室 统统一一维维度度库库建建设设架架构构 维度库 Hive(离线维表)Kafka(实时维表) 维度服务 MysqlHbaseES 数据服务平台数据可视化平台统一权限数据门户平台 维度管理 维度表管理 维度层级管理 权限维管理 发布管理 维度数据探查 维度整合维度溯源 数据计算服务维度查询服务 维度推送服务维度名映射服务 …. 公众号:数字化转型工作室公众号:数字化转型工作室 第五部分 数据服务构建 PART 05 公众号:数字化转型工作室公众号:数字化转型工作室 统统一一数数据据服服务务架架构构 数 仓 数 据 服 务 统 一 维 度 库模型层 OLAP 数据API 指标层 可视化数据层:可视化引擎 任务调度数据加速引擎查询引擎 解析引擎计划引擎执行引擎 应用层 指标定义管理指标数据服务 事实表+维度表 DW层 DruidClickhouseESPG… 公众号:数字化转型工作室公众号:数字化转型工作室 指指标标定定义义 指标基础信息 • 多种时间粒度 • 多种时间周期 • 多单位换算 度量 • 计算函数: max/min/count/count distinct/sum/avg/abs • 累计函数:lastday 衍生计算表达式 • 支持逻辑流 • 支持运算符 • 时间计算函数 • 异常数据 个性化筛选条件 • 统一维度支持 • 自定义维度支持 • 自定义参数支持 指标属性 • 可比 • 占比 • 同环比 •