Question

我试图从tripadvisor中挖掘审核数据。我目前正在关注Hadley Wickham的代码（found here）。我让它正在为他正在审查的酒店工作。

但是，当我将它应用于我的案例时（例如Pichavaram Mangrove Forest），日期会以NA的形式出现。我发现问题是他的评论源代码中的日期具有属性“title”。我搜索的所有网站都没有此日期信息的属性标记。而是当我查看我的页面的源代码时，日期可以在以下行中找到

'< span class="ratingDate" >Reviewed 16 May 2015'.

有谁知道如何修改他的代码以获取此日期信息？ Hadley代码的日期抓取部分是：

date <- reviews %>%
  html_node(".rating .ratingDate") %>%
  html_attr("title") %>%
  strptime("%b %d, %Y") %>%    
  as.POSIXct()

我对R（和一般编码）相当新，所以我将非常感谢你的帮助。

Answer 1

It's probably not fair to expect those examples to work 100% of the time given that websites are constantly changing.

Any how... here's a solution that works today...

library("rvest")
url <- "http://www.tripadvisor.com/Attraction_Review-g790280-d2408767-Reviews-Pichavaram_Mangrove_Forest-Chidambaram_Tamil_Nadu.html"
html(url) %>% html_node(".rating .ratingDate") %>% 
  html_text %>%
  strptime("Reviewed %b %d, %Y") %>%    
  as.POSIXct()

Tripadvisor的数据挖掘：没有属性的源代码信息

1 个答案: