我正在写一个scrapy蜘蛛,我希望用户能够提供像<span class="someclass"></span>
或<a style="somestuff"></a>
这样的html标签,然后使用这些标签来提取文本并将其放入我的文本中结果。
我真的不希望用户必须提供Xpath。我知道使用xpath进行编码可能更容易,但我会让那些不太精通技术的用户使用我的蜘蛛。
你会怎么做?
答案 0 :(得分:0)
看看这个
http://django-dynamic-scraper.readthedocs.org/en/latest/
我尝试过它很好用,你也可以用django模型链接。
您可以从那里获得许多想法,如何获取用户输入