使用R从HTML元素中提取日期

时间:2019-06-18 13:34:13

标签: html r

我正在尝试是否可以使用R从在线社区中提取日期。目前,我有点新手,但是使用R包运气不佳。似乎拉了一个巨大的清单,而不是任何特定的日期或时间。

我尝试使用Rvest包读取URL,然后选择要提取日期的HTML元素。我只是找不到日期在其中任何地方。

这是我到目前为止尝试过的。

  discussion <- read_html("https://en.community.sonos.com/wireless-speakers-228992/bass-cutting-out-on-play-5-will-come-back-intermittently-when-volume-is-turned-up-5568948")
  local.date <- discussion %>% 
  html_nodes(".qa-latest-post-time") %>% html_text()
  discussion

有更好的方法吗?

理想情况下,我将从中得到一个特定的日期(和时间)。如果没有,至少有一个特定的日期会有用。

1 个答案:

答案 0 :(得分:0)

您正在选择节点的文本,但日期信息存储在属性中(您可以通过打印HTML节点本身来查找):

discussion %>% html_nodes('.qa-latest-post-time') %>% html_attr('datetime')
  

理想情况下,我将从中得到一个特定的日期(和时间)。

该网站的源代码似乎不包含发布时间-至少在您的示例中没有。