我想抓下以下网站的所有文字: http://curia.europa.eu/juris/document/document.jsf?text=&docid=49703&pageIndex=0&doclang=en&mode=lst&dir=&occ=first&part=1&cid=656172
我的代码:
html = http://curia.europa.eu/juris/document/document.jsf?text=&docid=49703&pageIndex=0&doclang=en&mode=lst&dir=&occ=first&part=1&cid=656172
main_content <- html_nodes(html, css = "#document_content")
main_text <- main_content %>% html_nodes("p") %>%html_text()
但是,通过这种方式,并非所有文本都被提取,因为某些文本位于节点&#34; dd&#34; ...&#34; / dd&#34;
我想知道我是否可以执行类似html_nodes(&#34; p&#34;)或html_nodes(&#34; dd&#34;)或html_nodes(&#34; dt&#34;)来替换html_nodes( &#34; p&#34;)在上面的dode中。
我怎样才能做到这一点?或者还有其他方法可以完成我的任务吗?理想情况下,我不想使用
main_text <- main_content %>% html_text()
因为我想把每个句子分开。
答案 0 :(得分:0)
选择css时,如果用逗号分隔所需的节点,就像逻辑OR ...
library("rvest")
url = "http://curia.europa.eu/juris/document/document.jsf?text=&docid=49703&pageIndex=0&doclang=en&mode=lst&dir=&occ=first&part=1&cid=656172"
page <- read_html(url)
main_text <- page %>%
html_nodes("#document_content") %>%
html_nodes("p,dd,dt") %>%
html_text()