3.5. 合并

合并节点的功能是使用多个输入记录,然后创建一个包含全部或其中部分输入字段的输出记录。当您要合并来源不同的数据(如内部客户数据和购买的人口统计数据)时,此操作非常有用。

3.5.1. 输入项设置

使用合并节点和追加节点对话框中的“输入”选项卡,可以指定输入数据源的顺序。

  • 标记:列出每个输入数据源的当前标记名称。标记名称(即标记)是一种唯一标识用于合并或追加操作的数据链接的方法。例如,这就好像来自不同管道的水在一个点处进行合并,然后流到一个管道中。Clementine 中的数据也按照相似的方式流动,合并点通常是不同数据源之间的复杂交互。标记提供了一种用于管理到合并节点或追加节点的输入(“管道”)的方法,因此,如果该节点被保存或断开时,这些链接将被保留并可以轻松识别。
将附加数据源与合并节点或追加节点相连时,将使用编号自动创建默认标记,以表示您连接这些节点的顺序。此顺序与字段在输入或输出数据集中的顺序无关。您可以通过鼠标左键拖动行,改变输入节点的顺序,从而调整连接的次序。
  • 数据源节点:显示要合并其数据的源节点。
  • 连接节点:显示与合并节点或追加节点连接的节点名称。复杂的数据处理过程经常需要若干可能包括同一个源节点的合并操作。连接的节点名称提供了一种区分这些内容的方法。
  • 字段数:列出每个数据源中的字段数。

3.5.2. 关键字设置

该节点提供两种合并数据的方式:

同名字段模式: 使用同名关键字段合并(如客户 ID),指定如何将来自一个数据源的记录与来自其他数据源的记录相匹配。

  • 同名列:枚举出了与当前节点相连的所有前节点的所有同名字段;
  • 关键字:连接多表的条件;您可以从右侧的 同名列 中,将列名拖入此处;

表达式模式: 您可以填写一个布尔表达式,系统将符合条件的多个数据源的记录进行匹配。

连接表达式:提供填写表达式的入口,也可 公式编辑器 创建条件;

注:此处表达式与其它不同,以“标记.名称”方式表示字段,标记编号由系统自动生成,与 输入项设置页 中节点顺序相对应。

连接类型

当数据合并使用一个关键字段时,最好先花一些时间来考虑要排除和包括哪些记录。系统提供了很多种连接,详细信息将在下面讨论。

两种基本的连接类型称为内部连接和外部连接。这些方法经常用于根据关键字段(如客户 ID)的公共值,合并来自相关数据集的表。通过内部连接,可以实现清理合并,以及仅包括完整记录的输出数据集。外部连接也包括合并数据中的完整记录,但它们还允许包括来自一个或多个输入表的唯一性数据。

系统中允许的连接类型将在下面更详细地描述:

  • 连接(INNER JOIN):只包括其中关键字段的值对于所有输入表都共有的记录。即,不匹配的记录不会包括在输出数据集中。
  • 左连接(LEFT JOIN): 包括使用关键字段匹配的所有记录,以及第一个表( 输入项设置页 中指定)中的不匹配记录。(换句话说,包括部分表中的所有记录,以及其他表中的仅匹配记录。)
  • 排除(Except JOIN): 仅包括第一个输入表的不匹配记录。这种连接类型与连接正好相反,在输出数据集中不包括完整记录。

注解

过滤设置页,使用方法与过滤节点类似,具体操作方法请参考 过滤节点