使用HTTP请求作为管道

时间:2014-04-08 18:09:15

标签: scala http pipe scalding

我正在摆脱Scalding我需要从互联网上获取大量网址。

看起来,Scala没有提供单个类来在其标准库中执行HTTP请求。

由于我看到的许多简单的java解决方案看起来过于冗长,我想知道我是否可以使用Scalding Pipe机器来做这件事,或者如果这不是它打算用于的那种任务。

另外。在使用外部库(例如Dispatchscalaj-http)的情况下:我可以直接将结果提取到Pipe,还是涉及更多的管道?

1 个答案:

答案 0 :(得分:1)

我不确定在Map / Reduce期间直接获取URL是否有意义。我宁愿使用其他机制(例如Akka)获取URL并将内容存储在HDFS中(例如通过Kafka),然后在该数据之上运行Scalding作业。

您可以使用Playframework's WS库(现在作为独立模块提供)进行URL提取。有关详细信息,请参阅documentation