除了Rstudio,我正在尝试学习如何使用rvest。但是现在我一直在试图获取文章标题。
具体文章为:https://stacksnippets.net/js
我尝试使用bot CSS选择器和XPath,但没有一个成功。之前我曾尝试过在其他网页上进行此操作,但没有任何问题,所以我对此感到非常沮丧。
元素的结构为:
<h1 class="article-title">
<p>
Beyond imports: The supply chain effects of trade protection on export growth </p>
</h1>
因此,<p>
标记后面似乎有换行符。
我使用的代码如下:
sub_page <- read_html("http://voxeu.org/article/design-choices-central-bank-digital-currency")
title <- sub_page %>%
html_nodes(".article-title") %>%
html_text()
哪个返回[1] "\n "
。
例如,如果我想使用.article-content
作为CSS选择器来获取页面的文章内容,则没有问题,然后它将获取全部内容。我尝试了SelectorGadget提出的各种建议,但都没有运气。谁能指出我正确的方向?