商务智能

  • ETL的过程:
    • 辨识与主题相关的数据(有用的数据)
    • 开发数据抽取策略
    • 将原始数据转换为目标规格
    • 将原始数据加载到目标区域
  • 数据处理:操作性&分析型
  • 操作型处理:事务处理/联机事务处理OLTP
    • 查询/修改
    • 查询简单,但频率高
    • 关注的是响应时间,数据的安全性和完整性
    • 面向企业员工
  • 分析型处理:信息型处理,用于决策分析
    • 对大量的数据进行统计、归纳、分析
    • 需要访问大量的历史数据
    • 执行频率对时间的要求不高
    • 例如:DSS决策支持系统
    • 面向企业管理人员
  • DSS决策支持系统:数据&算法与模型&展示
  • 事务处理环境不适应DSS的原因:
    • 事务处理和分析处理的性能特征不同(事务处理的时间短,数据量小,频率高;分析处理的时间长,数据量大,频率低)
    • 数据集成问题(事务处理只需要处理本部门相关,分析处理需要处理不同的数据源,造成重复计算,分析效率低)
    • 数据的动态集成问题(集成数据必须以一定的周期刷新,传统事务处理不具备动态集成能力)
    • 历史数据问题(事务处理当前数据,分析处理历史数据)
    • 数据的综合问题(事务处理:细节性操作数据,分析处理:总结性分析数据,在分析前需要对细节数据进行不同程度的综合)
    • 数据的访问问题(事务处理:实时更新,分析处理:定时刷新)
  • 因此出现了数据仓库:面向主题的【按主题组织,按主题决策】、集成的【多个数据源】、非易失的(稳定的)【很少更新】、时变的数据集合【以时间段为单位统一更新】
  • 目标:决策支持;改善信息系统
  • 数据仓库的关键技术
    • ETL
    • 存储和管理
    • 数据的访问和表现
    • 元数据
  • 数据抽取:从数据源抽取,加工转换后形成数据仓库中国呢的数据
    • 关键字被重建
    • 非关键字格式化
  • 数据刷新:将改变过的数据进行刷新【量小,难度大】
  • 数据刷新的方法:
    • 时间戳:如果有时间属性,根据OLTP中的数据有误更新,以及在执行更新操作时数据的修改时间标志来实现数据仓库中数据的动态刷新【但是很多数据库没有时间属性】
    • Delta文件:有些应用程序会生成delta文件来记录所做的数据修改,可以根据delta文件进行数据刷新,避免了对比扫描,但是这样的应用程序并不普遍
    • 建立映像文件:在上一次刷新后对数据库做快照,本次刷新前再做快照,比较两个快照,对数据库没有要求,但是需要占用大量的系统资源,可能影响原数据库的性能
    • 日志文件:根据日志文件刷新,比delta文件和映像文件效率高,但是有的数据库系统没有日志文件
  • 数据周期:事务环境中的数据发生变化~数据仓库刷新的时间【<24h】
    • 如果太紧密,技术就昂贵复杂
    • 24h保证数据再进入数据仓库前的稳定
  • 粒度:对数据仓库中的数据的综合程度的一个度量
    • 粒度低,细节多;粒度高,细节少
  • 为什么要划分多重粒度:应对不同级别的粒度要求
    • 大粒度数据:快速存储设备,提高性能
    • 小粒度数据:低俗存储设备,满足细节查询
  • 多维度,多层次:
    • 维度是观察数据对象的角度
    • 层次是数据对象的综合程度
  • 快照:关键字,时间单元,主要数据,二级数据
  • 元数据(数据的数据):数据源系统,数据处理过程,数据的刷新
  • 数据集市:按部门划分数据仓库
    • 是数据仓库的一个部分,关系为基表与视图的关系
  • 数据仓库与数据集市的关系
    • 自顶向下的结构:先构建总DW,再根据部门构建数据集市
      • 优点:减轻数据仓库负担,各部门任意处理,在DW阶段统一转换,数据缓冲
      • 缺点:成本高,见效慢,数据集市间不共享资源
    • 自底向上的结构:构建数据集市,根据数据集市构建总DW
      • 优点:启动资金低,见效快
      • 缺点:各部门都要转换清理数据,可能清理完数据还是不一致,并且总体也没有节约资金
    • 总线结构的数据集市:直接构建数据集市,在集市间通过共享维表和事实表的总线结构联系
      • 优点:解决了建立数据集市的许多问题
      • 缺点:基于多维模型,限制与OLAP;多个数据源直接影响多个集市,数据结构不稳定
    • 企业级数据集市结构
  • OLAP联机分析处理
  • 度量值:关心和分析的对象
  • 维:观察度量值的角度
  • 层:分析度量值的深度层面
  • OLAP的数据构造方式:
    • ROLAP:关系型
    • MOLAP:多维
    • HOLAP:混合
  • OLAP的基本数据模型
    • MOLAP:MDDB多维数据库
    • ROLAP:星型模型,雪花模型
  • 多维数据分析
    • 切片:某一维成员值
    • 切块:某一/多维上的维成员值的区间
    • 旋转:调整维的排列次序
    • 数据概括:将多维下标的取值提升到较高的概念层次上
    • 数据细化:~降低到较低的概念层次上
  • 数据仓库设计的原则:
    • 面向主题:以主题为起点,进行相关数据的设计
    • 数据驱动:从已有数据出发进行设计
    • 原型法设计:从基本框架开始,不断丰富与完善,逐步求精
  • 数据仓库设计的三级数据模型
    • 概念模型-ER客观世界到机器世界的中间层次
    • 逻辑模型-数据仓库的主题的逻辑实现
    • 物理模型-逻辑模型在数据仓库的实现
  • 数据仓库的设计步骤
    • 系统规划——明确主题【原型设计法】,技术准备
    • 概念设计:确定系统边界,主题及其内容,OLAP等分析应用的设计
    • 逻辑设计:将ER图转换为关系数据库的二维表,定义数据源和抽取规则,考虑粒度划分【详细。轻度总结。高度总结】,数据分割
    • 物理设计:类似数据库设计
      • 合并表
      • 数据序列(索引?)
      • 引入冗余(反范式?)
      • 表的物理分割
      • 生成导出数据
      • “最xxx”:建立广义索引
    • 数据仓库生成
    • 数据仓库的使用与维护
  • 多维建模
    • 事实表:度量值【通常是数值,可以连续取值】
      • 粒度划分模型:事务,周期快照,累积快照
        • 事务:在事务表中生成记录
        • 周期快照:每隔一段时间对关键指标查看并记录
        • 累积快照:压缩性的,事务性的
      • 关键字:FK,PK
    • 维度表:多列少行
      • 纬度属性:文本数据/离散数据
  • 维度建模的设计过程
    • 选取要建模的业务处理过程(分析需要)
    • 定义业务处理的粒度
    • 选择事实表中的维度
    • 选择事实表中的度量值
  • 值链:确定了企业主题活动的自然逻辑流程,按照值链来分析有没有漏数据
  • 总线结构:按照增量开发方式分布建造企业数据仓库的方法
    • 维度与事实标准化,使得数据集市可以并行开发
  • 总线矩阵:
    • 行:主题
    • 列:共享的公共维度
  • 一致性维度:一致的维度关键字,一致的属性列名字,一致的属性定义,一定的属性值
  • 一致性事实:同样的事实在不同的数据备份中存储的一致性
  • 历史完整性:不能用自然关键字&维度渐变
Table of Contents