Question

我希望有人能够提供一些有关利用scrapy python框架创建实时包装器的可行性的见解。

为了澄清我在这个上下文中对术语“包装器”的定义，让我描述一下我的情况......我希望使用scrapy来创建一个解决方案，允许用户在网站上执行搜索查询会实时调用scrapy蜘蛛，蜘蛛会被告知：

登录第三方写作
执行用户搜索查询
通过指定唯一的结果集容器类和/或xpath来提取生成的html内容，仅检索返回查询的实际html结果。
修改提取的html结果（通过改造html和/或注入新的页眉/页脚或css元素）。 5）并最终实时返回修改后的html结果，以便html可以通过对用户透明直接注入原始域。

我应该指出，我熟悉为大规模爬行编写scrapy spider，但我不太熟悉能够用它来构建实时类型的“包装器”的前景或可行性。 / p>

如果有人有任何有关类似情况的见解，建议或例子，我将非常感激。 CH

Answer 1

您可以在http://htql.net/尝试用于python的HTQL浏览器界面。 Bing实时搜索的一个例子是：

import htql;
a=htql.Browser(); 
b=a.goUrl("http://www.bing.com/");
c=a.goForm("<form>1", {"q":"test"});
for d in htql.HTQL(c[0], "<a (tx like '%test%')>"): 
    print(d);

e=a.click("<a (tx like '%test%' and not (href like '/search%'))>1");

通过将浏览器更改为：

，它可以与IRobotSoft scraper结合使用，直观地完成所有操作

a=htql.Browser(2);

可以在本手册中找到更多详细信息http://htql.net/htql-python-manual.pdf或在http://irobotsoft.org/bb/

询问

Scrapy可以用作实时包装吗？

1 个答案: