文本挖掘网页并仅提取<li>功能

时间:2017-10-05 17:12:12

标签: r web-scraping text-mining

我正在尝试为网站搜索关键字,但不知道如何继续。

我想要从网页中提取所有带有<li>标记的项目。所以我有HTML代码;

<H1> Some header </H1>
<text> Some noise I am not interested in </text>
<li> some text here </li>
<li> some more text here </li>
<li> even more text here </li>
<text> Some more noice I am also not interested in </text>

所以我只对列有<li></li>

的项目感兴趣

有人可以指出我正确的方向。

或者我使用了readLines函数并将网页保存为data_frame,所以我想在没有<li>命令的情况下尝试删除所有行。

任何想法

1 个答案:

答案 0 :(得分:0)

如果您有网页列表,则可以迭代此列表并使用以下代码段在<li>-Tags之间提取实际文字

library(rvest)

scraper <- read_html("http://yourpage.com")

scraping_wiki %>%
    html_nodes("li")%>%
    html_text()

在你的情况下,这将返回

    ##  [1] " some text here "                             
    ##  [2] " some more text here "  
    ##  [3] " some more text here "