应用错误收集

使用HTTP请求作为管道

时间：2014-04-08 18:09:15

标签： scala http pipe scalding

我正在摆脱Scalding我需要从互联网上获取大量网址。

看起来，Scala没有提供单个类来在其标准库中执行HTTP请求。

由于我看到的许多简单的java解决方案看起来过于冗长，我想知道我是否可以使用Scalding Pipe机器来做这件事，或者如果这不是它打算用于的那种任务。

另外。在使用外部库（例如Dispatch或scalaj-http）的情况下：我可以直接将结果提取到Pipe，还是涉及更多的管道？

1 个答案:

答案 0 :(得分：1)

我不确定在Map / Reduce期间直接获取URL是否有意义。我宁愿使用其他机制（例如Akka）获取URL并将内容存储在HDFS中（例如通过Kafka），然后在该数据之上运行Scalding作业。

您可以使用Playframework's WS库（现在作为独立模块提供）进行URL提取。有关详细信息，请参阅documentation。