hudiCluster 表函数
这是 hudi 表函数的扩展。
允许从指定集群中多个节点并行处理 Amazon S3 中 Apache Hudi 表的文件。在发起者节点上,它会创建与集群中所有节点的连接,并动态分派每个文件。在工作节点上,它会向发起者询问要处理的下一个任务并处理它。重复此过程直到所有任务完成。
语法
hudiCluster(cluster_name, url [,aws_access_key_id, aws_secret_access_key] [,format] [,structure] [,compression])
参数
-
cluster_name
— 集群的名称,用于构建一组地址和连接参数,以连接到远程和本地服务器。 -
所有其他参数的描述与等效的 hudi 表函数中的参数描述一致。
返回值
一个具有指定结构的表,用于从 S3 中指定的 Hudi 表的集群中读取数据。
另请参阅