使用RVest提取页面抓取标题时出现问题

时间:2020-09-05 21:24:14

标签: r web-scraping rvest

除了Rstudio,我正在尝试学习如何使用rvest。但是现在我一直在试图获取文章标题。

具体文章为:https://stacksnippets.net/js

我尝试使用bot CSS选择器和XPath,但没有一个成功。之前我曾尝试过在其他网页上进行此操作,但没有任何问题,所以我对此感到非常沮丧。

元素的结构为:

    <h1 class="article-title">
    <p>
    Beyond imports: The supply chain effects of trade protection on export growth   </p>
    </h1>

因此,<p>标记后面似乎有换行符。

我使用的代码如下:

sub_page <-  read_html("http://voxeu.org/article/design-choices-central-bank-digital-currency")

title <-  sub_page %>%
html_nodes(".article-title") %>%
html_text()

哪个返回[1] "\n "

例如,如果我想使用.article-content作为CSS选择器来获取页面的文章内容,则没有问题,然后它将获取全部内容。我尝试了SelectorGadget提出的各种建议,但都没有运气。谁能指出我正确的方向?

0 个答案:

没有答案