Tripadvisor的数据挖掘:没有属性的源代码信息

时间:2015-06-15 11:27:25

标签: html r datetime web-scraping

我试图从tripadvisor中挖掘审核数据。我目前正在关注Hadley Wickham的代码(found here)。我让它正在为他正在审查的酒店工作。

但是,当我将它应用于我的案例时(例如Pichavaram Mangrove Forest),日期会以NA的形式出现。 我发现问题是他的评论源代码中的日期具有属性“title”。我搜索的所有网站都没有此日期信息的属性标记。而是当我查看我的页面的源代码时,日期可以在以下行中找到

'< span class="ratingDate" >Reviewed 16 May 2015'. 

有谁知道如何修改他的代码以获取此日期信息? Hadley代码的日期抓取部分是:

date <- reviews %>%
  html_node(".rating .ratingDate") %>%
  html_attr("title") %>%
  strptime("%b %d, %Y") %>%    
  as.POSIXct()

我对R(和一般编码)相当新,所以我将非常感谢你的帮助。

1 个答案:

答案 0 :(得分:0)

It's probably not fair to expect those examples to work 100% of the time given that websites are constantly changing.

Any how... here's a solution that works today...

library("rvest")
url <- "http://www.tripadvisor.com/Attraction_Review-g790280-d2408767-Reviews-Pichavaram_Mangrove_Forest-Chidambaram_Tamil_Nadu.html"
html(url) %>% html_node(".rating .ratingDate") %>% 
  html_text %>%
  strptime("Reviewed %b %d, %Y") %>%    
  as.POSIXct()