在Web抓取期间来自XML包的readHTMLTable的R不一致结果

时间:2014-02-13 00:18:59

标签: xml r parsing web-scraping web-crawler

我遇到的问题让我发疯。

我正在尝试读取目录结构,并且它提供了不一致的结果。

以下是一些代码:

library(XML)

output <- readHTMLTable("http://www.sec.gov/Archives/edgar/data/876603/")
output

如果我执行10次左右,我会得到“最后修改”的不同结果。

以下是每个输出的前几行。

案例1:

                               Name     Last modified Size             Description
1                              <NA>              <NA> <NA>                    <NA>
2                  Parent Directory                 Â    -                       Â
3                               00/ 02-Feb-2013 16:34    -                       Â
4          0000876603-00-000005.txt 15-Feb-2000 15:36 1.0M Document: Text Document

案例2:

                               Name     Last modified Size             Description
1                              <NA>              <NA> <NA>                    <NA>
2                  Parent Directory                 Â    -                       Â
3                               00/ 09-Feb-2013 16:31    -                       Â
4          0000876603-00-000005.txt 15-Feb-2000 15:36 1.0M Document: Text Document

如果您访问该网站,您可以判断案例2是否正确。

有谁知道为什么这会给我不一致的结果?

有解决方案吗?

提前致谢!

1 个答案:

答案 0 :(得分:0)

  

因此,如果您的唯一目标是获得可重现的结果,则可以使用修改版本的readHTMLTable来缓存其输出。在脚本的顶部,定义

library(memoise); 
my.readHTMLTable <- memoise(readHTMLTable) 
  

并改为使用该功能。