我正在尝试将一些数据导入数据流,但数据并不位于云存储上 - 这是我通常每隔x小时检查一次的RSS提要。有没有办法直接使用SDK,或者我必须先将文件放到云存储上。
提前致谢。
答案 0 :(得分:2)
Dataflow不提供RSS源的来源。
您可以从ParDo发出HTTP请求以获取数据。例如,假设Feed允许您在某个时间范围内获取消息。然后你可以创建一个输入集合,其中每个记录代表一个时间范围(例如一小时)。然后你可以编写一个ParDo来获取该时间范围内的消息并发出它们。
如果您是流式早期访问预览的一部分,那么 一个解决方案是编写App Engine应用程序(或等效的),每隔X小时检查一次RSS提要,然后使用Google Cloud PubSub发布数据。然后,您可以使用PubSubIO在Dataflow中读取这些事件。