应用错误收集

没有任何中间脚本/服务文件。有可能吗？

不幸的是，没有。

您需要将一些服务写入Kafka（您的刮板）中。无论是生成到Kafka HTTP链接（然后编写一个中间使用者/生产者来生成抓取的结果），还是仅产生最终的抓取结果，这取决于您。

您还需要一个第二项服务，以使用那些写入HDFS的主题。这可以是Kafka Connect（通过Confluent的HDFS连接器库），PySpark（您必须编写自己的代码），或其他包含“中间脚本/服务”的选项。

如果您想同时使用这两个选项，建议您看一下Apache Nifi或Streamset，它们可以执行HTTP查找，（X）HTML解析和Kafka + HDFS连接器，所有这些都通过集中式GUI配置。注意：我相信必须使用JVM语言重写任何Python代码，以支持此管道中的主要自定义解析逻辑