我正在摆脱Scalding我需要从互联网上获取大量网址。
看起来,Scala没有提供单个类来在其标准库中执行HTTP请求。
由于我看到的许多简单的java解决方案看起来过于冗长,我想知道我是否可以使用Scalding Pipe机器来做这件事,或者如果这不是它打算用于的那种任务。
另外。在使用外部库(例如Dispatch或scalaj-http)的情况下:我可以直接将结果提取到Pipe,还是涉及更多的管道?
答案 0 :(得分:1)
我不确定在Map / Reduce期间直接获取URL是否有意义。我宁愿使用其他机制(例如Akka)获取URL并将内容存储在HDFS中(例如通过Kafka),然后在该数据之上运行Scalding作业。
您可以使用Playframework's WS库(现在作为独立模块提供)进行URL提取。有关详细信息,请参阅documentation。