Question

我想抓下以下网站的所有文字： http://curia.europa.eu/juris/document/document.jsf?text=&docid=49703&pageIndex=0&doclang=en&mode=lst&dir=&occ=first&part=1&cid=656172

我的代码：

  html = http://curia.europa.eu/juris/document/document.jsf?text=&docid=49703&pageIndex=0&doclang=en&mode=lst&dir=&occ=first&part=1&cid=656172

  main_content <- html_nodes(html, css = "#document_content")
  main_text <- main_content  %>% html_nodes("p") %>%html_text()

但是，通过这种方式，并非所有文本都被提取，因为某些文本位于节点＆＃34; dd＆＃34; ...＆＃34; / dd＆＃34;

我想知道我是否可以执行类似html_nodes（＆＃34; p＆＃34;）或html_nodes（＆＃34; dd＆＃34;）或html_nodes（＆＃34; dt＆＃34;）来替换html_nodes（＆＃34; p＆＃34;）在上面的dode中。

我怎样才能做到这一点？或者还有其他方法可以完成我的任务吗？理想情况下，我不想使用

  main_text <- main_content   %>% html_text()

因为我想把每个句子分开。

Answer 1

选择css时，如果用逗号分隔所需的节点，就像逻辑OR ...

library("rvest")
url = "http://curia.europa.eu/juris/document/document.jsf?text=&docid=49703&pageIndex=0&doclang=en&mode=lst&dir=&occ=first&part=1&cid=656172"
page <- read_html(url)
main_text <- page %>% 
  html_nodes("#document_content") %>% 
  html_nodes("p,dd,dt") %>%
  html_text()

使用rvest进行网络抓取

1 个答案: