使用scrapy(不是xpath)的html标签之间的额外数据

时间:2013-01-19 08:50:03

标签: python html scrapy

我正在写一个scrapy蜘蛛,我希望用户能够提供像<span class="someclass"></span><a style="somestuff"></a>这样的html标签,然后使用这些标签来提取文本并将其放入我的文本中结果。 我真的不希望用户必须提供Xpath。我知道使用xpath进行编码可能更容易,但我会让那些不太精通技术的用户使用我的蜘蛛。

你会怎么做?

1 个答案:

答案 0 :(得分:0)

看看这个

http://django-dynamic-scraper.readthedocs.org/en/latest/

我尝试过它很好用,你也可以用django模型链接。

您可以从那里获得许多想法,如何获取用户输入