由于全局IT设置,我很难使用htmlParse
或read_HTML
。
对于我而言,解决方案只是使用readLines
包中的base
,然后使用htmlParse
进行解析。这个过程有我不知道的缺点吗?
至少对于我的MWE,它似乎产生相同的输出。对于更复杂的HTML代码,也许会有所不同。
library(XML)
mailing_url = "http://www.r-project.org/mail.html"
mailing lines <- readLines(mailing_url)
mailing_doc.RL = htmlParse(mailing_lines)
mailing_doc.HTML = htmlParse(mailing_url)
all.equal(mailing_doc.RL, mailing_doc.HTML)