我遇到的问题让我发疯。
我正在尝试读取目录结构,并且它提供了不一致的结果。
以下是一些代码:
library(XML)
output <- readHTMLTable("http://www.sec.gov/Archives/edgar/data/876603/")
output
如果我执行10次左右,我会得到“最后修改”的不同结果。
以下是每个输出的前几行。
案例1:
Name Last modified Size Description
1 <NA> <NA> <NA> <NA>
2 Parent Directory  - Â
3 00/ 02-Feb-2013 16:34 - Â
4 0000876603-00-000005.txt 15-Feb-2000 15:36 1.0M Document: Text Document
案例2:
Name Last modified Size Description
1 <NA> <NA> <NA> <NA>
2 Parent Directory  - Â
3 00/ 09-Feb-2013 16:31 - Â
4 0000876603-00-000005.txt 15-Feb-2000 15:36 1.0M Document: Text Document
如果您访问该网站,您可以判断案例2是否正确。
有谁知道为什么这会给我不一致的结果?
有解决方案吗?
提前致谢!
答案 0 :(得分:0)
因此,如果您的唯一目标是获得可重现的结果,则可以使用修改版本的readHTMLTable来缓存其输出。在脚本的顶部,定义
library(memoise);
my.readHTMLTable <- memoise(readHTMLTable)
并改为使用该功能。