python - 如何在运行中将数据从python发送到hadoop

如何在运行中将数据从python发送到hadoop

时间：2015-01-15 13:42:11

标签： python hadoop web-crawler data-mining

嗨我有在10台机器上运行的python脚本，以及挖掘数据。大数据... 我想将措辞数据发送到hadoop集群。我想在digitalocean上安装cloudera和hadoop。 Hadoop如何随时准备接收文件，并且python脚本将使用json数据发送带有post请求的信息？你能建议我发送数据的更好方法吗？谢谢你的帮助。

1 个答案:

答案 0 :(得分：1)

您可以考虑许多选项：

Kafka + Flume。以下是一个可行的示例：http://blog.cloudera.com/blog/2014/11/flafka-apache-flume-meets-apache-kafka-for-event-processing/
Kafka + Spark Streaming。试试这个http://www.slideshare.net/rahuldausa/real-time-analytics-with-apache-kafka-and-apache-spark和http://www.michael-noll.com/blog/2014/10/01/kafka-spark-streaming-integration-example-tutorial/
一般情况下，任何队列（Kafka，RabbitMQ，AMQ等）和能够写入HDFS的任何队列使用者，在最简单的情况下只需一个Java应用程序轮询队列每30-60秒