Databend 在 minio 环境使用 copy 命令 | 新手篇(3)
wubx12月 29, 2022
Copy 命令是 Databend 批量导入 | 卸载数据的灵魂工具。目前 copy 可以做到单机内按 CPU core 数并发,马上就支持按集群内并发。Copy 可以结合 bucket 和 内置的 stage 使用,这块功能比较丰富,接下来给大家具体讲解一下。
Databend 批量数据装载和卸载都是通过 copy 命令来实现。
Copy 命令讲解
Copy 命令格式
功能:将数据导入到 table 中,注意导入的前提是先将 table 创建好。
COPY INTO [<database>.]<table_name>
FROM { internalStage | externalStage | externalLocation }
[ FILES = ( '<file_name>' [ , '<file_name>' ] [ , ... ] ) ]
[ PATTERN = '<regex_pattern>' ]
[ FILE_FORMAT = ( TYPE = { CSV | JSON | NDJSON | PARQUET }
[ formatTypeOptions ] ) ]
[ copyOptions ]
命令核心:
From 指定来源:内部 stage, 外部 stage,也可以直接访问外面的 bucket。
FILES:可选项,一个文件名的列表,这个有一个约束,列表里的文件需要是同一类文件
PATTERN: 支持一个正则的文件名表达
FILE_FORMAT: 文件支持 csv, tsv, ndjson, parquet , 其中对于 csv,tsv 需要定义 formatTypeOption 对应如下:
formatTypeOptions | |
---|---|
CSV | FILE_FORMAT = (type='CSV' field_delimiter=',' skip_header=1 compression=auto) |
TSV | FILE_FORMAT = (type='TSV' field_delimiter=',' skip_header=1 compression=auto) |
ndjson | FILE_FORMAT = (type='NDJSON' compression=auto) |
parquet | FILE_FORMAT = (type='parquet') |
-
field_delimiter: 指定字段间隔符,csv 默认是 ',' , tsv 默认是'\t'
-
record_delimiter: 指定换行符, 建议不指定,copy 命令会自动识别。
-
skip_header: 指定跳过头部的几行
-
compresssion: auto 指定自动识别压缩。可以使用的值:GZIP | BZ2 | BROTLI | ZSTD | DEFALTE | RAW_DEFLATE
-
escape: 对于一些非标准的 csv 或是文件中有 json 字段,导入失败时建议在 File_format 中添加:escape='\' 尝试
copyOptions: 可选项。有三个参数:
参数 | 用处 |
---|---|
size_limit | 限定只导入多少行,一般用于测试阶段。默认是 0 表示不限制 |
purge | 布尔型,如果为:true 会把 copy 成功的文件删除。默认是:False |
force | 布尔型。Databend 默认 Copy into 对于导入成功的文件不会再次导入,如果需要重复导入,这个参数需要设置成 force 为 true,这个参数不要和 purge 一起使用。一般也是测蔗环境使用。 |
例如 copy 后需要把文件删除:purge=true
接下来我们重点实战一下:基于 内部 stage 和 外部 stage 的 copy into。
Stage 讲解
什么 是 stage?
在 Databend 中 Stage 是用来暂存数据的一个空间。通常是对象存储中一个 bucket 或是 bucket 下面的某个目录。从这个 bucket 的产生情况分为:
-
外部 stage : 用户 Account 下创建的 bucket , 非 Databend-query 连接的 bucket。 使用外部 bucket 需要知道 bucket 路径,对应的 endpoint_url , id, key 等信息。
-
内部 stage: 是指 Databend-query 连接的 bucket 下,用户通过 create stage <stage_name>直接创建的目录,该目录 Databend-query 拥有读取权限。
内部 stage 使用
-
创建 内部 stage
MySQL [default]> create stage my_stage;
Query OK, 0 rows affected (0.030 sec) -
查看有哪些 stage
MySQL [default]> show stages;
+----------+------------+-----------------+--------------------+---------+
| name | stage_type | number_of_files | creator | comment |
+----------+------------+-----------------+--------------------+---------+
| my_stage | Internal | 0 | 'root'@'127.0.0.1' | |
+----------+------------+-----------------+--------------------+---------+
1 row in set (0.027 sec)