我希望有人能够提供一些有关利用scrapy python框架创建实时包装器的可行性的见解。
为了澄清我在这个上下文中对术语“包装器”的定义,让我描述一下我的情况......我希望使用scrapy来创建一个解决方案,允许用户在网站上执行搜索查询会实时调用scrapy蜘蛛,蜘蛛会被告知:
我应该指出,我熟悉为大规模爬行编写scrapy spider,但我不太熟悉能够用它来构建实时类型的“包装器”的前景或可行性。 / p>
如果有人有任何有关类似情况的见解,建议或例子,我将非常感激。 CH
答案 0 :(得分:1)
您可以在http://htql.net/尝试用于python的HTQL浏览器界面。 Bing实时搜索的一个例子是:
import htql;
a=htql.Browser();
b=a.goUrl("http://www.bing.com/");
c=a.goForm("<form>1", {"q":"test"});
for d in htql.HTQL(c[0], "<a (tx like '%test%')>"):
print(d);
e=a.click("<a (tx like '%test%' and not (href like '/search%'))>1");
通过将浏览器更改为:
,它可以与IRobotSoft scraper结合使用,直观地完成所有操作a=htql.Browser(2);
可以在本手册中找到更多详细信息http://htql.net/htql-python-manual.pdf或在http://irobotsoft.org/bb/
询问