使用来自爬虫的kafka进行数据提取

时间:2018-08-16 11:57:03

标签: python apache-kafka web-crawler kafka-producer-api

我正在尝试与Kafka一起进行数据提取,但是对此我还很陌生,我有点困惑,我有多个爬虫,它们从Web平台为我提取数据。现在,问题是我想使用Kafka将数据提取到Hadoop而不使用任何中间脚本/服务文件。可能吗 ?

1 个答案:

答案 0 :(得分:1)

  

没有任何中间脚本/服务文件。有可能吗?

不幸的是,没有。

您需要将一些服务写入Kafka(您的刮板)中。无论是生成到Kafka HTTP链接(然后编写一个中间使用者/生产者来生成抓取的结果),还是仅产生最终的抓取结果,这取决于您。

您还需要一个第二项服务,以使用那些写入HDFS的主题。这可以是Kafka Connect(通过Confluent的HDFS连接器库),PySpark(您必须编写自己的代码),或其他包含“中间脚本/服务”的选项。

如果您想同时使用这两个选项,建议您看一下Apache Nifi或Streamset,它们可以执行HTTP查找,(X)HTML解析和Kafka + HDFS连接器,所有这些都通过集中式GUI配置。注意:我相信必须使用JVM语言重写任何Python代码,以支持此管道中的主要自定义解析逻辑