为什么scraperwiki会从sctml中省略行?

时间:2012-03-07 14:25:54

标签: python html lxml scraperwiki

我在scraperwiki上有一个非常简单的python脚本:

import scraperwiki
import lxml.html

html = scraperwiki.scrape("http://www.westphillytools.org/toolsListing.php")
print html

我还没有写任何东西来解析它...现在我只想要html。

当我在编辑模式下运行它时效果很好。

当计划的scrape运行(或者我手动运行它)时,它会省略几十(甚至几百)行。

这是一个非常小的网页,因此数据过载应该不是问题。有什么想法吗?

2 个答案:

答案 0 :(得分:0)

听起来您的变量中存在数据。尝试一次打印一行。

答案 1 :(得分:0)

在编辑器中,单个打印语句汇总到一行以供显示。您可以在编辑器的控制台中单击“更多...”以查看整个批次。

运行计划时,它的输出与任何控制台完全相同。因此,如果HTML中有回车符,您将获得许多输出行。

为了减少我们存储的输出量,我们会截断计划运行的大量输出。那就是你见过“[53行,省略159000个字符]”。

除了调试之外,计划运行的stdout并不是真正意图。您需要将数据存储保存到要使用的输出中。