如何在运行中将数据从python发送到hadoop

时间:2015-01-15 13:42:11

标签: python hadoop web-crawler data-mining

嗨我有在10台机器上运行的python脚本,以及挖掘数据。 大数据... 我想将措辞数据发送到hadoop集群。 我想在digitalocean上安装cloudera和hadoop。 Hadoop如何随时准备接收文件, 并且python脚本将使用json数据发送带有post请求的信息? 你能建议我发送数据的更好方法吗? 谢谢你的帮助。

1 个答案:

答案 0 :(得分:1)

您可以考虑许多选项:

  1. Kafka + Flume。以下是一个可行的示例:http://blog.cloudera.com/blog/2014/11/flafka-apache-flume-meets-apache-kafka-for-event-processing/
  2. Kafka + Spark Streaming。试试这个http://www.slideshare.net/rahuldausa/real-time-analytics-with-apache-kafka-and-apache-sparkhttp://www.michael-noll.com/blog/2014/10/01/kafka-spark-streaming-integration-example-tutorial/
  3. 一般情况下,任何队列(Kafka,RabbitMQ,AMQ等)和能够写入HDFS的任何队列使用者,在最简单的情况下只需一个Java应用程序轮询队列每30-60秒