以纯文本格式从nutch获取数据

时间:2018-05-10 16:27:16

标签: html hadoop web-crawler bigdata nutch

我正在使用apache nutch来抓取网站。当我使用readseg命令读取段中的内容时,我将采用以下格式:

有没有办法以纯文本格式获取网页数据? when I am using readseg command on parse text I am getting in this way

1 个答案:

答案 0 :(得分:0)

./bin/nutch parse命令转储(默认情况下)从URL获取的原始内容。这是传输的整个HTML内容。如果要获取文本内容,则需要等到解析内容之后。这意味着您需要执行整个爬网循环(或readseg命令)。

检查RateLimiter limiter = RateLimiter.create(5000.0); for (int i = 0; i < msisdnSize; i++) {limiter.acquire();//sends message} tried this as well limiter.acquire(); for (int i = 0; i < msisdnSize; i++) { //sends message } 命令(https://wiki.apache.org/nutch/bin/nutch_readseg)上的不同选项,如果您已经执行了解析步骤,则可能只关心已解析的内容,因此您可以避免打印所有内容其他