数据集成作业支持向导模式和脚本模式。本小节主要介绍向导模式。

前提条件

  • 已添加数据源至目标工作空间。

  • 目标工作空间已创建计算集群。

开发流程

  1. 创建离线-批量同步作业。

  2. 开发作业。

    1. 选择数据来源。

    2. 选择数据目的。

    3. 配置字段映射。

    4. 选择计算集群。

    5. 通道控制。

  3. 配置作业调度。

  4. 发布作业。

创建离线-批量同步作业

  1. 登录管理控制台。

  2. 选择产品与服务 > 大数据服务 > 大数据工作台,进入大数据工作台概览页面。

  3. 在左侧导航选择工作空间,进入工作空间页面。

  4. 在目标工作空间选择数据开发 > 作业开发,进入作业开发页面。

  5. 点击创建作业,进入创建作业页面。

    离线-批量同步作业
  6. 选择离线-批量同步作业,点击下一步

    填写信息
  7. 配置作业相关信息。

    参数 参数说明

    开发模式

    作业开发模式,点击上一步可以修改。

    同步类型

    选择作业同步类型、数据来源端和数据目的端的数据源类型。

    作业名称

    创建的作业名称,您可以自定义。

    作业所在目录

    选择作业所在目录。数据集成作业只能在数据集成目录和其子目录下。

    描述

    作业的描述信息,您可以自定义。

  8. 点击确定,开始创建作业。

开发作业

选择数据来源

配置数据来源,以及需要同步的表等信息。

选择数据来源时,请参见配置数据来源

选择数据来源

选择数据目的

选择数据目的时,请参见配置数据目的

选择数据目的

配置字段映射

选择数据来源和数据目的后,您需要指定来源表字段和目的端字段的映射关系。您可以选择全部平行同名映射同行映射解除全部映射置为初始状态

选择数据来源后,系统自动加载出来源表字段和类型。

  • 来源表字段:不可以修改。

  • 类型:可以修改。支持的数据类型请参见配置数据来源

选择数据目的后,系统自动加载出来目标表字段和类型。

  • 目标表字段:不可以修改。

  • 类型:不可以修改。支持的数据类型请参见配置数据目的

操作 说明

全部平行

点击全部平行,可以自动将已建立的映射关系的字段调整到同行。

同名映射

点击同名映射,可以根据名称建立相应的映射关系,请注意匹配数据类型。

同行映射

点击同行映射,可以在同行建立相应的映射关系,请注意匹配数据类型。

解除全部映射

点击解除全部映射,可以解除已建立的映射关系。

置为初始状态

点击置为初始状态,可以解除已建立的映射关系并恢复字段排序为初始状态。

字段映射

选择计算集群

点击选择集群,在弹出的对话框中选择已创建好的计算集群;也可以在对话框中点击计算集群列表,进入计算集群页面,创建新的计算集群。

注意

若您没有提前创建计算集群,点击计算集群列表后,已配置的数据源信息将会丢失。

计算集群

通道控制

参数 说明

作业期望最大并行数

数据同步任务内,可以从源并行读取或并行写入数据存储端的最大线程数。向导模式通过界面化配置并发数,指定任务所使用的并行度。

同步速率

设置同步速率可以保护读取端数据库,以避免抽取速度过大,给源库造成太大的压力。同步速率建议限流,结合源库的配置,请合理配置抽取速率。

错误记录数

设置允许的脏数据条数,当脏数据超过设置的阈值时,作业将自动结束运行。

通道控制

保存作业

完成以上配置后,点击保存,保存作业。

配置作业调度

  1. 在作业开发面板右侧点击调度设置,进入调度配置页面。

  2. 配置调度参数和调度策略。详细信息请参见配置调度参数配置调度策略

  3. 点击确定,完成调度配置操作。

发布作业

  1. 点击发布,弹出发布调度任务对话框。

    发布作业
  2. 您可以根据实际情况选择是否终止当前作业正在运行中的实例,如果终止当前作业正在运行中的实例,运行中的作业实例会立即被强制终止。

  3. 点击发布,发布作业。发布作业时也会对代码进行语法检查,需要一定的时间,请耐心等待。
    作业发布成功后,您可以前往运维中心查看已发布作业和作业实例。