应用错误收集

关于如何从URL中提取某些部分文本，我有两个问题 1.我想从这些网址中提取文字，但想要删除财务报表（损益表，资产负债表等） 2.例如，我想在第一个URL中删除S-8 Risk Factors之后的部分。

u <- "https://www.sec.gov/Archives/edgar/data/944508/000104746914007395/a2221329z424b7.htm"
ie <- COMCreate("InternetExplorer.Application") 
ie$Navigate(u)
doc <- list()
doc[[u]] <- ie[["document"]][["body"]][["innerText"]] 
#ie$Quit()
doc=tolower(doc)
dic=c("breakthrough", "develop", "patent")
sent=unlist(strsplit(as.character(doc),split="\\."))[grep(paste(dic,collapse="|"),unlist(strsplit(as.character(doc),split="\\.")))]
write.csv(sent, "1.csv")

在R中仅提取html的某些部分

0 个答案: