1. SOURCE

从指定的输入源读入数据形成数据表,对每条读入数据按照格式规则处理为数据。


1.1. 配置方式

1.1.1. 界面配置

【TODO:前端完成后】

1.1.2. DAG脚本配置

可以在DAG脚本中添加数据源。

    {
      "plugin_name": "KafkaTableStream",
      "result_table_name": "KafkaTableStreamTable",
      "parallelism": 1,
      "name": "mykafka"
       ...
    }

1.2. 通用属性

名称 name (string) (optional)

组件的类型名称, 也是flink生成jobgraph的名称。

组件并行度 parallelism (Int) (optional)

该组件实的并行度, 主要用于source和sink,

使用的组件名称 plugin_name (string)

使用那个组件处理数据

输出表 result_table_name (string)

输出数据流名称,可以作为transfrom/输出的输入。

数据样例 schema (json/csv/text)

测试样例, 会根据此消息生成表结构


1.3. 格式化输入源

对于无Schema输入源(目前支持的文本数据源、Kafka数据源等),输入条目原以纯文本或者字节码的方式提供。此时需要指定从输入到数据条目的反序列化方式。

目前支持的反序列化方式包括:

  • JSON 将每条原始输入条目作为一条JSON格式化字符串进行反序列化。
  • CSV 将每条原始输入条目作为多个字段进行反序列化。此时需要指定分隔符,作为多个字段之间的分隔符;
  • 纯文本 将每条原始输入条目不进行反序列化,直接转化为table。此时需要指定数据表只有一列f0,作为将原始输入条目内容放入f0中

后续我们将会逐渐添加对于XML等常见字符串序列化协议,以及Avro、ProtoBuffer等常见字节码序列化协议的支持。

results matching ""

    No results matching ""