我正在尝试与Kafka一起进行数据提取,但是对此我还很陌生,我有点困惑,我有多个爬虫,它们从Web平台为我提取数据。现在,问题是我想使用Kafka将数据提取到Hadoop而不使用任何中间脚本/服务文件。可能吗 ?
答案 0 :(得分:1)
没有任何中间脚本/服务文件。有可能吗?
不幸的是,没有。
您需要将一些服务写入Kafka(您的刮板)中。无论是生成到Kafka HTTP链接(然后编写一个中间使用者/生产者来生成抓取的结果),还是仅产生最终的抓取结果,这取决于您。
您还需要一个第二项服务,以使用那些写入HDFS的主题。这可以是Kafka Connect(通过Confluent的HDFS连接器库),PySpark(您必须编写自己的代码),或其他包含“中间脚本/服务”的选项。
如果您想同时使用这两个选项,建议您看一下Apache Nifi或Streamset,它们可以执行HTTP查找,(X)HTML解析和Kafka + HDFS连接器,所有这些都通过集中式GUI配置。注意:我相信必须使用JVM语言重写任何Python代码,以支持此管道中的主要自定义解析逻辑