我一直在尝试运行Cloud Data Prep流,该流从Google Cloud Storage中获取文件。
Google云端存储中的文件每天更新一次,并且当前存储桶中有1000多个文件。但是,我无法从存储桶中获取超过1000个文件。
有什么方法可以从Cloud Storage获取数据吗?如果没有,我们还有其他方法可以实现这一目标吗?
答案 0 :(得分:0)
您可以使用文件浏览器中文件夹旁边的 + 按钮加载大量文件。当在Dataflow上运行作业时,这会加载该文件夹中的所有文件(或更确切地说是前缀)。
但是,浏览/使用参数设置功能时会有一个限制。一些用户可能拥有数百万个文件,因此无法在所有文件中进行搜索。 (因为GCS仅允许按前缀过滤)。
有关更多详细信息,请参见该页面上的限制: https://cloud.google.com/dataprep/docs/html/Import-Data-Page_57344837