使用readlines进行HTML / XML解析是否有缺点?

时间:2018-07-02 19:54:27

标签: html r xml parsing xml-parsing

由于全局IT设置,我很难使用htmlParseread_HTML。 对于我而言,解决方案只是使用readLines包中的base,然后使用htmlParse进行解析。这个过程有我不知道的缺点吗?

至少对于我的MWE,它似乎产生相同的输出。对于更复杂的HTML代码,也许会有所不同。

library(XML)

mailing_url = "http://www.r-project.org/mail.html"

mailing lines <- readLines(mailing_url)

mailing_doc.RL = htmlParse(mailing_lines)
mailing_doc.HTML = htmlParse(mailing_url)

all.equal(mailing_doc.RL, mailing_doc.HTML)

0 个答案:

没有答案