大数据产品调研-Oracle

Big Data Architecture

大数据架构

Oracle产品体系

Oracle的Big Data产品体系,总体分为4个领域:

Aggregate

数据整合工具集。

Big Data Preparation

特性:

  1. 数据导入(Ingest)
    • 支持非结构化、半结构化及结构化数据
    • 清洗及规范数据,比如日期及手机号码的规范
    • 能够检查出数据重复
  2. 丰富信息(Enrich)
    • 数值数据的统计分析,文本数据的词频分析
    • 数据的自动分类
    • 元数据的发现(比如判断某列的内容为city)
    • 数据增强(Augment )(比如city列,推荐系统建议将列的人口、省份等额外信息添加到数据集中)
  3. 数据治理(Govern)
    • 导入任务的调度(用户的每一步操作都会记录下来,保存后作为调度任务的批处理脚本)
    • 仪表盘展示数据的历史记录
  4. 直观易用
    • 可视化展示(比如以饼图展示某列的样本分布)
    • 无脚本,全程通过视频及引导
    • 基于机器学习的推荐,提高用户体验(比如建议将列名修改为country)

IoT

物联网

Golden Gate

数据上云
1. 基于change log的数据复制,对原有db无影响
2. 基于socks5代理的TCP/IP连接,安全加密,高性能
3. 方便的界面管理及监控

Data Integrator for Big Data

用于大数据处理的数据集成工具,支持多种大数据平台

  1. ELT的架构,直接在目标平台进行转换、调度等,省去了中间层的开销

  2. 将逻辑模型设计与物理层的实现解耦

  3. 支持Native代码生成,支持Spark、Hive、Pig等多种标准,并可以在多种平台间无缝切换。

Metadata Management

元数据管理

  1. 通过元数据管理确保数据的规范化

  2. 通过增加协作和社交功能来提高管理效率

  3. 通过元数据版本控制,以实现数据一致性

  4. 通过数据血缘及影响分析报告,来管理数据的生命周期

数据治理工具的具体步骤:

  1. 定义业务术语(指标定义)

  2. 识别关键指标(Critial Data Element)

  3. 定义指标的安全等级

  4. 定义业务规则,并将指标与规则关联起来

  5. 定义指标的有效取值

  6. 支持数据血缘和影响分析

    • 能追溯某个指标的来源表
    • 能追溯某个指标的业务规则
    • 能从源头指标追溯到聚集计算后的指标

Oracle Stream Explorer

实时处理平台

Manage

云基础设施及云数据库

Experiment

专注于数据的探索,发掘数据的价值

Big Data Discovery

一种全新的大数据分析方法,有效地帮助组织机构快速地看到和了解原始数据的潜在意义,并且轻松转换数据使其更加直观用以信息发现,然后共享数据带来的新的价值。

  1. Find
    数据浏览、检测

  2. Explore
    可视化展现数据透视的结果

  3. Transform
    提供丰富的转换函数,并能增加维表信息(如地理信息)

  4. Discovery
    数据集的关联,多维分析,多样的可视化展现形式

  5. Share
    可以分享截图、项目等,并可以将数据导出到hdfs上,供后续使用

Analyze and Act

数据挖掘及数据服务,体现数据价值

Data Visualization

数据可视化

Business Intelligence

Advanced Analytics

  1. Oracle R
  2. Oracle Data Mining

Real-Time Decisions

实时决策管理平台

Big Data SQL

可以让用户在Hadoop等NoSQL平台上使用SQL进行查询

Spatial and Graph

图形分析
地理位置信息

发表评论