我正在尝试是否可以使用R从在线社区中提取日期。目前,我有点新手,但是使用R包运气不佳。似乎拉了一个巨大的清单,而不是任何特定的日期或时间。
我尝试使用Rvest包读取URL,然后选择要提取日期的HTML元素。我只是找不到日期在其中任何地方。
这是我到目前为止尝试过的。
discussion <- read_html("https://en.community.sonos.com/wireless-speakers-228992/bass-cutting-out-on-play-5-will-come-back-intermittently-when-volume-is-turned-up-5568948")
local.date <- discussion %>%
html_nodes(".qa-latest-post-time") %>% html_text()
discussion
有更好的方法吗?
理想情况下,我将从中得到一个特定的日期(和时间)。如果没有,至少有一个特定的日期会有用。
答案 0 :(得分:0)
您正在选择节点的文本,但日期信息存储在属性中(您可以通过打印HTML节点本身来查找):
discussion %>% html_nodes('.qa-latest-post-time') %>% html_attr('datetime')
理想情况下,我将从中得到一个特定的日期(和时间)。
该网站的源代码似乎不包含发布时间-至少在您的示例中没有。