我试图从tripadvisor中挖掘审核数据。我目前正在关注Hadley Wickham的代码(found here)。我让它正在为他正在审查的酒店工作。
但是,当我将它应用于我的案例时(例如Pichavaram Mangrove Forest),日期会以NA的形式出现。 我发现问题是他的评论源代码中的日期具有属性“title”。我搜索的所有网站都没有此日期信息的属性标记。而是当我查看我的页面的源代码时,日期可以在以下行中找到
'< span class="ratingDate" >Reviewed 16 May 2015'.
有谁知道如何修改他的代码以获取此日期信息? Hadley代码的日期抓取部分是:
date <- reviews %>%
html_node(".rating .ratingDate") %>%
html_attr("title") %>%
strptime("%b %d, %Y") %>%
as.POSIXct()
我对R(和一般编码)相当新,所以我将非常感谢你的帮助。
答案 0 :(得分:0)
It's probably not fair to expect those examples to work 100% of the time given that websites are constantly changing.
Any how... here's a solution that works today...
library("rvest")
url <- "http://www.tripadvisor.com/Attraction_Review-g790280-d2408767-Reviews-Pichavaram_Mangrove_Forest-Chidambaram_Tamil_Nadu.html"
html(url) %>% html_node(".rating .ratingDate") %>%
html_text %>%
strptime("Reviewed %b %d, %Y") %>%
as.POSIXct()