Big Data Architecture
Oracle的Big Data产品体系,总体分为4个领域:
Aggregate
数据整合工具集。
Big Data Preparation
特性:
- 数据导入(Ingest)
- 支持非结构化、半结构化及结构化数据
- 清洗及规范数据,比如日期及手机号码的规范
- 能够检查出数据重复
- 丰富信息(Enrich)
- 数值数据的统计分析,文本数据的词频分析
- 数据的自动分类
- 元数据的发现(比如判断某列的内容为city)
- 数据增强(Augment )(比如city列,推荐系统建议将列的人口、省份等额外信息添加到数据集中)
- 数据治理(Govern)
- 导入任务的调度(用户的每一步操作都会记录下来,保存后作为调度任务的批处理脚本)
- 仪表盘展示数据的历史记录
- 直观易用
- 可视化展示(比如以饼图展示某列的样本分布)
- 无脚本,全程通过视频及引导
- 基于机器学习的推荐,提高用户体验(比如建议将列名修改为country)
IoT
物联网
Golden Gate
数据上云
1. 基于change log的数据复制,对原有db无影响
2. 基于socks5代理的TCP/IP连接,安全加密,高性能
3. 方便的界面管理及监控
Data Integrator for Big Data
用于大数据处理的数据集成工具,支持多种大数据平台
- ELT的架构,直接在目标平台进行转换、调度等,省去了中间层的开销
-
将逻辑模型设计与物理层的实现解耦
-
支持Native代码生成,支持Spark、Hive、Pig等多种标准,并可以在多种平台间无缝切换。
Metadata Management
元数据管理
- 通过元数据管理确保数据的规范化
-
通过增加协作和社交功能来提高管理效率
-
通过元数据版本控制,以实现数据一致性
-
通过数据血缘及影响分析报告,来管理数据的生命周期
数据治理工具的具体步骤:
- 定义业务术语(指标定义)
-
识别关键指标(Critial Data Element)
-
定义指标的安全等级
-
定义业务规则,并将指标与规则关联起来
-
定义指标的有效取值
-
支持数据血缘和影响分析
- 能追溯某个指标的来源表
- 能追溯某个指标的业务规则
- 能从源头指标追溯到聚集计算后的指标
Oracle Stream Explorer
实时处理平台
Manage
云基础设施及云数据库
Experiment
专注于数据的探索,发掘数据的价值
Big Data Discovery
一种全新的大数据分析方法,有效地帮助组织机构快速地看到和了解原始数据的潜在意义,并且轻松转换数据使其更加直观用以信息发现,然后共享数据带来的新的价值。
- Find
数据浏览、检测 -
Explore
可视化展现数据透视的结果 -
Transform
提供丰富的转换函数,并能增加维表信息(如地理信息) -
Discovery
数据集的关联,多维分析,多样的可视化展现形式 -
Share
可以分享截图、项目等,并可以将数据导出到hdfs上,供后续使用
Analyze and Act
数据挖掘及数据服务,体现数据价值
Data Visualization
数据可视化
Business Intelligence
Advanced Analytics
- Oracle R
- Oracle Data Mining
Real-Time Decisions
实时决策管理平台
Big Data SQL
可以让用户在Hadoop等NoSQL平台上使用SQL进行查询
Spatial and Graph
图形分析
地理位置信息