Question

我正在尝试为网站搜索关键字，但不知道如何继续。

我想要从网页中提取所有带有<li>标记的项目。所以我有HTML代码;

<H1> Some header </H1>
<text> Some noise I am not interested in </text>
<li> some text here </li>
<li> some more text here </li>
<li> even more text here </li>
<text> Some more noice I am also not interested in </text>

所以我只对列有<li></li>

的项目感兴趣

有人可以指出我正确的方向。

或者我使用了readLines函数并将网页保存为data_frame，所以我想在没有<li>命令的情况下尝试删除所有行。

任何想法

Answer 1

如果您有网页列表，则可以迭代此列表并使用以下代码段在<li>-Tags之间提取实际文字：

library(rvest)

scraper <- read_html("http://yourpage.com")

scraping_wiki %>%
    html_nodes("li")%>%
    html_text()

在你的情况下，这将返回

    ##  [1] " some text here "                             
    ##  [2] " some more text here "  
    ##  [3] " some more text here "

文本挖掘网页并仅提取<li>功能

1 个答案: