应用错误收集

以纯文本格式从nutch获取数据

时间：2018-05-10 16:27:16

标签： html hadoop web-crawler bigdata nutch

我正在使用apache nutch来抓取网站。当我使用readseg命令读取段中的内容时，我将采用以下格式：

有没有办法以纯文本格式获取网页数据？ when I am using readseg command on parse text I am getting in this way

1 个答案:

答案 0 :(得分：0)

./bin/nutch parse命令转储（默认情况下）从URL获取的原始内容。这是传输的整个HTML内容。如果要获取文本内容，则需要等到解析内容之后。这意味着您需要执行整个爬网循环（或readseg命令）。

检查RateLimiter limiter = RateLimiter.create(5000.0); for (int i = 0; i < msisdnSize; i++) {limiter.acquire();//sends message} tried this as well limiter.acquire(); for (int i = 0; i < msisdnSize; i++) { //sends message }命令（https://wiki.apache.org/nutch/bin/nutch_readseg）上的不同选项，如果您已经执行了解析步骤，则可能只关心已解析的内容，因此您可以避免打印所有内容其他