使用rvest进行网页搜索并不能正常工作

时间:2016-05-11 07:56:46

标签: r web-scraping

我想从airbnb网页上删除房间的评论。例如,从此网页:https://www.airbnb.com/rooms/8400275

这是我执行此任务的代码。我使用了rvest packege和selectorgadget:

x <- read_html('https://www.airbnb.com/rooms/8400275')
x_1 <- x%>%html_node('#reviews p')%>%html_text()%>%as.character()
你可以帮我解决这个问题吗?是否可以使用rvest包(我不熟悉xpathSApply)

1 个答案:

答案 0 :(得分:0)

我假设你想提取评论本身。看看html文件,似乎这不是一件容易的事,因为你必须在_videos节点中提取它。所以,我试过的是:

  • 阅读html。在这里,我使用protected void onResume() { Handler h = new Handler(); h.postDelayed(new Runnable() { @Override public void run() { InputMethodManager keyboard = (InputMethodManager) getSystemService(Context.INPUT_METHOD_SERVICE); keyboard.hideSoftInputFromWindow(findViewById(android.R.id.content).getWindowToken(), 0); } }, 500); } script来阅读它 作为人物载体。

  • 选择包含评论信息的行。

  • 使用connection提取评论。

对于前两个步骤,我们还可以使用readLinesstr_extract包来选择适当的节点。

rvest