我正在尝试为网站搜索关键字,但不知道如何继续。
我想要从网页中提取所有带有<li>
标记的项目。所以我有HTML代码;
<H1> Some header </H1>
<text> Some noise I am not interested in </text>
<li> some text here </li>
<li> some more text here </li>
<li> even more text here </li>
<text> Some more noice I am also not interested in </text>
所以我只对列有<li></li>
有人可以指出我正确的方向。
或者我使用了readLines函数并将网页保存为data_frame,所以我想在没有<li>
命令的情况下尝试删除所有行。
任何想法
答案 0 :(得分:0)
如果您有网页列表,则可以迭代此列表并使用以下代码段在<li>-Tags
之间提取实际文字:
library(rvest)
scraper <- read_html("http://yourpage.com")
scraping_wiki %>%
html_nodes("li")%>%
html_text()
在你的情况下,这将返回
## [1] " some text here "
## [2] " some more text here "
## [3] " some more text here "