Question

我遇到的问题让我发疯。

我正在尝试读取目录结构，并且它提供了不一致的结果。

以下是一些代码：

library(XML)

output <- readHTMLTable("http://www.sec.gov/Archives/edgar/data/876603/")
output

如果我执行10次左右，我会得到“最后修改”的不同结果。

以下是每个输出的前几行。

案例1：

                               Name     Last modified Size             Description
1                              <NA>              <NA> <NA>                    <NA>
2                  Parent Directory                 Â    -                       Â
3                               00/ 02-Feb-2013 16:34    -                       Â
4          0000876603-00-000005.txt 15-Feb-2000 15:36 1.0M Document: Text Document

案例2：

                               Name     Last modified Size             Description
1                              <NA>              <NA> <NA>                    <NA>
2                  Parent Directory                 Â    -                       Â
3                               00/ 09-Feb-2013 16:31    -                       Â
4          0000876603-00-000005.txt 15-Feb-2000 15:36 1.0M Document: Text Document

如果您访问该网站，您可以判断案例2是否正确。

有谁知道为什么这会给我不一致的结果？

有解决方案吗？

提前致谢！

Answer 1

因此，如果您的唯一目标是获得可重现的结果，则可以使用修改版本的readHTMLTable来缓存其输出。在脚本的顶部，定义

library(memoise); 
my.readHTMLTable <- memoise(readHTMLTable)

并改为使用该功能。

在Web抓取期间来自XML包的readHTMLTable的R不一致结果

1 个答案: