wangbo commented on issue #2940: spark etl build global dict doc URL: https://github.com/apache/incubator-doris/pull/2940#issuecomment-588817101 @morningman 懂你的意思了。 有两个问题需要解决 第一个是输入信息的方式,这个具体可以等元信息详细接口出来之后再定,如果通过kv的方式描述,放在dml确实很复杂的话,也可以通过http提交。建议是dml和http上传同时支持,原因是根据我经历的用户使用场景,其实连接信息和过滤条件应该不会很多,字段映射什么的其实可以按照约定来,也不一定非得上传。另外我觉得如果能是kv格式的txt可能最好,xml对用户来说还是有一定构建成本的。 第二个问题是持久化的问题,我也比较同意作业提交这种信息不写入元数据log,因为这些数据丢了不会影响数据库正常运行,且具备一次性的属性,所以和元数据log分开存储的方式是比较合适的,甚至我觉得可以把部分信息放在spark作业里解析,doris只需要知道将作业提交到哪个集群就可以了,在提交作业时将这些文件随作业提交。不过还是得解决冗余问题,因为如果夜间生产fe切主的话,对生产影响还是挺大的。
---------------------------------------------------------------- This is an automated message from the Apache Git Service. To respond to the message, please log on to GitHub and use the URL above to go to the specific comment. For queries about this service, please contact Infrastructure at: us...@infra.apache.org With regards, Apache Git Services --------------------------------------------------------------------- To unsubscribe, e-mail: commits-unsubscr...@doris.apache.org For additional commands, e-mail: commits-h...@doris.apache.org