在R中仅提取html的某些部分

时间:2017-05-23 18:36:49

标签: html r loops

关于如何从URL中提取某些部分文本,我有两个问题 1.我想从这些网址中提取文字,但想要删除财务报表(损益表,资产负债表等) 2.例如,我想在第一个URL中删除S-8 Risk Factors之后的部分。

u <- "https://www.sec.gov/Archives/edgar/data/944508/000104746914007395/a2221329z424b7.htm"
ie <- COMCreate("InternetExplorer.Application") 
ie$Navigate(u)
doc <- list()
doc[[u]] <- ie[["document"]][["body"]][["innerText"]] 
#ie$Quit()
doc=tolower(doc)
dic=c("breakthrough", "develop", "patent")
sent=unlist(strsplit(as.character(doc),split="\\."))[grep(paste(dic,collapse="|"),unlist(strsplit(as.character(doc),split="\\.")))]
write.csv(sent, "1.csv")

0 个答案:

没有答案