Question

我正在尝试是否可以使用R从在线社区中提取日期。目前，我有点新手，但是使用R包运气不佳。似乎拉了一个巨大的清单，而不是任何特定的日期或时间。

我尝试使用Rvest包读取URL，然后选择要提取日期的HTML元素。我只是找不到日期在其中任何地方。

这是我到目前为止尝试过的。

  discussion <- read_html("https://en.community.sonos.com/wireless-speakers-228992/bass-cutting-out-on-play-5-will-come-back-intermittently-when-volume-is-turned-up-5568948")
  local.date <- discussion %>% 
  html_nodes(".qa-latest-post-time") %>% html_text()
  discussion

有更好的方法吗？

理想情况下，我将从中得到一个特定的日期（和时间）。如果没有，至少有一个特定的日期会有用。

Answer 1

您正在选择节点的文本，但日期信息存储在属性中（您可以通过打印HTML节点本身来查找）：

discussion %>% html_nodes('.qa-latest-post-time') %>% html_attr('datetime')

理想情况下，我将从中得到一个特定的日期（和时间）。

该网站的源代码似乎不包含发布时间-至少在您的示例中没有。

使用R从HTML元素中提取日期

1 个答案: