如何出口scrubyt提取器?

时间:2010-05-29 11:19:16

标签: ruby screen-scraping scrubyt

我已经基于'学习'技术编写了一个scrubyt提取器 - 也就是说,指定页面上的当前文本并让它来计算XPath表达式本身。但是,我现在想要导出提取器,以便即使页面已更改也可以使用它。

现在看来,所有关于scrubyt的文档似乎已经遍布整个地方,但是从我能找到的内容中我应该能够放置行extractor.export(__FILE__),它应该可以工作。它没有 - 我只是得到一个错误,说导出的参数数量错误,它应该有0.我已经尝试过没有任何参数但它仍然失败。

我会在擦洗论坛上问,但好像很久没有人在那里了!

任何想法在这做什么?

1 个答案:

答案 0 :(得分:1)

刚出现同样的问题并尝试了“put google_data.export()”(试图从谷歌中获取一些东西)

这给了我以下内容:

  

===提取树===

 export() is not working at the moment, due to the removal or
     

ParseTree,ruby2ruby和RubyInline。        目前,如果您使用的是示例,可以手动替换它们   基于下面的输出。        因此,如果学习提取器中的模式看起来像

 book "Ruby Cookbook" 

 and you see the following below:

 [book] /table[1]/tr/td[2]

 then replace "Ruby Cookbook" with "/table[1]/tr/td[2]" (and all the
     

其他XPaths)你准备好了!         [link] / body / div / div / div / div / div / ol / li / h3 / a

给了我正在寻找的xpath

scrubyt版本是0.4.06