我正在尝试从以下链接读取xml数据:
https://www.sec.gov/Archives/edgar/data/1000275/000156761920010411/0001567619-20-010411.txt
当我使用rvest包中的read_xml
link <- "https://www.sec.gov/Archives/edgar/data/1000275/000156761920010411/0001567619-20-010411.txt"
html_test <- read_xml(link)
我得到一个错误:
“ read_xml.raw(原始,编码=编码,base_url = base_url,as_html = as_html, 开头和结尾的标签不匹配:ACCEPTANCE-DATETIME第3行和SEC-HEADER [76]“
是否可以读取此文本文件并提取某些xml标签?
提前谢谢!
答案 0 :(得分:0)
您可能正在处理损坏的xml文件,如here所述。使用read_html
进行阅读有效。然后,您可以将其放入列表中并使用它,但是根据实际需要提取的内容,可能并不可行。
library(xml2)
link <- "https://www.sec.gov/Archives/edgar/data/1000275/000156761920010411/0001567619-20-010411.txt"
html_test <- read_html(link)
html_list <- as_list(html_test)