Dataphin(智能数据构建与管理)是一款用于大数据平台建设的智能引擎,旨在满足各行各业大数据建设、管理及应用需求。

功能特性

Dataphin遵循阿里巴巴集团多年实战沉淀的大数据建设OneData体系(OneModel、OneID、OneService),集产品、技术、方法论于一体,一站式地为您提供集数据引入、规范定义、数据建模研发、数据萃取、数据资产管理、数据服务等的全链路智能数据构建及管理服务。助您打造属于自己的标准统一、资产化、服务化和闭环自优化的智能数据体系,驱动创新。
功能 描述
平台管理 平台管理是Dataphin的基础功能,包含账号管理、系统设置和智能引擎。该功能帮助您系统地了解和熟悉整个产品,快速开始工作,并进行必要的系统管理与控制,保障各模块正常运转。
全局设计 基于业务全局,从顶层自下规划设计业务数据总线,包括划分命名空间、定义主题域及相关名词、划分管理单元(即项目)和定义数据源及计算引擎源。
数据引入 数据引入基于全局设计定义的项目空间与物理数据源,将各业务系统、各类型的数据抽取加载至目标数据库。这个过程可以实现各类业务数据的同步与集成,助您完成基础数据中心建设,为后续进一步加工数据奠定基础。
规范定义 基于全局设计定义的业务总线、数据引入构建的基础数据中心,根据业务数据需求,结构化地定义数据元素(例如维度、统计指标),保障数据无二义性地标准化、规范化生产。
建模研发 基于规范定义的数据元素,设计与构建可视化的数据模型。数据模型提交发布后,系统智能自动化地生成代码与调度任务,完成公共数据中心的全托管建设。
编码研发 基于通用的代码编辑页面,灵活地进行个性化的数据编码研发,完成任务发布。
资源及函数管理
  • 支持管理各种资源包(例如JAR、文本文件),以满足部分数据处理需求。
  • 支持查找与使用内置的系统函数。
  • 支持用户自定义函数,以满足数据研发的特殊加工需求。
数据萃取 基于Dataphin数据建模研发沉淀的数据,萃取提供以目标对象为中心的数据打通和深度挖掘,并生成代码与调度任务,完成实体对象识别、连接及标签生产,可快速应用于各类业务。
调度运维 对建模研发、编码研发生成的代码任务进行基于策略的调度与运维,确保所有任务正常有序地运行。调度运维操作包括:部署数据生产任务、查看任务运行情况、管理及维护任务之间的依赖关系。
元数据中心 支持采集、解析和管理基础数据中心、公共数据中心、萃取数据中心的元数据。
资产分析
  • 在元数据中心基础上,深度分析元数据,实现数据资产化管理。
  • 为您可视化地呈现资产分布、元数据详情等,方便您快速查找、深度了解数据资产。
即席查询 支持用户通过自定义SQL等方式,查询数据资产中的数据。同时,通过查询分析引擎,快速获取物理表、逻辑表(即数据模型,或逻辑模型)的数据查询结果。
数据服务 数据服务为您提供高效便捷的主题式查询功能及有效的全链路企业内API生命周期托管,真正实现低门槛API开发,帮助您更好地进行数据资产应用以实现价值化。

更多功能模块详情,请参见Dataphin产品详情页

为什么选择Dataphin

Dataphin可以屏蔽不同计算与存储环境的差异,助您快速引入数据并规范化地构建数据。您可以通过规范建模自动开发数据,萃取以实体对象为中心的标签数据体系,沉淀业务数据知识、数据资产,治理数据问题。同时,Dataphin还支持数据表查询、智能语音查询等多种类型的数据服务。

选择Dataphin,您可以轻松构建具有以下优势的数据体系:
  • 数据规范统一:采用维度事实建模理论,对维度、维度属性、业务过程、指标字段等进行严格的标准化、规范化定义,保障数据质量,避免数据指标定义的二义性。
  • 自动化编码:
    • 高效且自动化的编码:基于函数化理念,对通用数据计算逻辑进行组件化定义,并可自由组建统计指标,从而实现自助化建模研发,系统自动生成代码执行数据生产。
    • 智能计算优化:支持从业务视角进行逻辑建模。逻辑模型发布后,系统自动化进行物理建模、编码,从而降低对开发人员的技术能力依赖。
  • 一站式研发体验:一站式地完成数据引入、建模、研发、运维、数据查找及探查等过程,研发链路统一且高效。
  • 系统化构建数据目录:基于规范化建模、高效自动化的元数据抽取,以标准的技术框架系统地构建规范的业务化数据目录,形成数据资产地图,方便业务查找及应用。
  • 高效的数据检索:基于元数据及业务数据构建数据图谱,实现快速、智能检索数据表及数据。
  • 可视化的数据资产:系统化构建业务数据资产大图,从数据视角还原业务系统、提取业务数据,快速感知业务关键环节及数据。
  • 数据使用简单可依赖:通过主题式数据查询服务,您可以快速查询和访问研发构建的数据逻辑表,简化约80%的查询代码。
同时,Dataphin可以为您提升构建数据体系的效率,降低成本:
  • 提升效率:提供全链路、一站式、智能化的数据构建与管理工具,降低数据建设门槛。不同背景的开发人员可以自助ETL,快速满足业务需求。通过OneData(OneModel、OneID、OneService)方法论体系,可以完成模型和指标的抽象与自助定义、代码自动化生产、主题数据自动聚合并输出服务。
  • 降低成本:以元数据为基础、算法智能为驱动,实现物理和逻辑分层的智能自动化生产。同时,分析数据资产全链路,优化计算及存储资源分配,从而降低数据生产及消费成本。

如果您想了解Dataphin是否适用于您的需求场景,请参见应用场景