1.1. Source plugin : File
- Author: zihjiang
- Version: 0.0.1
1.1.1. Description
从文件系统中读取数据
1.1.2. Options
name | type | required | default value |
---|---|---|---|
format.type | string | yes | - |
path | string | yes | - |
schema | string | yes | - |
common-options | string | no | - |
format.type [string]
从文件系统中读取文件的格式,目前支持csv
、json
、parquet
、orc
和 text
。
path [string]
需要文件路径,hdfs文件以hdfs://开头,本地文件以file://开头。
schema [string]
- csv
- csv的schema是一个jsonArray的字符串,如
"[{\"type\":\"long\"},{\"type\":\"string\"}]"
,这个只能指定字段的类型,不能指定字段名,一般还要配合公共配置参数field_name
。
- csv的schema是一个jsonArray的字符串,如
- json
- json的schema参数是提供一个原数据的json字符串,可以自动生成schema,但是需要提供内容最全的原数据,否则会有字段丢失。
- parquet
- parquet的schema是一个Avro schema的字符串,如
{\"type\":\"record\",\"name\":\"test\",\"fields\":[{\"name\":\"a\",\"type\":\"int\"},{\"name\":\"b\",\"type\":\"string\"}]}
。
- parquet的schema是一个Avro schema的字符串,如
- orc
- orc的schema是orc schema的字符串,如
"struct<name:string,addresses:array<struct<street:string,zip:smallint>>>"
。
- orc的schema是orc schema的字符串,如
- text
- text的schema填为string即可。
common options [string]
Source
插件通用参数,详情参照 Source Plugin
1.1.3. 配置示例
{
"schema": "{\"hostid\": \"host01\",\"metric\": \"cpu_user\",\"value\": 13, \"auth\": \"1,2,3,4,5\"}",
"path": "/tmp/user.json",
"result_table_name": "FileSourceTable",
"plugin_name": "FileSource",
"format.type": "json"
}