使用R从论坛进行网络抓取,如何删除上一个用户的报价并导航到下一页?

时间:2019-04-23 03:13:32

标签: r web-scraping rvest

我的任务是从https://forum.lowyat.net/topic/4161836抓取论坛评论。我如何在没有以前用户引用的评论的情况下抓取它们?另外,要自动抓取下一页,如何为其编写循环?非常感谢您的帮助。

R函数rvest和CSS选择器被使用。抓取的结果包含以前用户的报价。有没有办法在不引用引号的情况下抓取评论?或有什么方法可以删除引用的内容?

对于循环,我找不到方法,因为大多数在线教程中的代码不适用于这种情况。论坛不是按url / pageN,而是按每个页面的评论数url / + n。有什么建议吗?

library(XML)
library(RCurl)
library(rvest)
url='https://forum.lowyat.net/topic/4161836'
webpage=read_html(url)
description_data_html <- html_nodes(webpage,'.post_text')
description_data <- html_text(description_data_html)

我的R代码产生如下输出:

I have a pen.
QUOTE(USERNAME @ DATE TIME) I have a pen.I have a pen too.

预期输出应为:

I have a pen.
I have a pen too.

0 个答案:

没有答案