Scrapy可以用作实时包装吗?

时间:2013-08-20 15:53:17

标签: python screen-scraping wrapper scrapy wrapping

我希望有人能够提供一些有关利用scrapy python框架创建实时包装器的可行性的见解。

为了澄清我在这个上下文中对术语“包装器”的定义,让我描述一下我的情况......我希望使用scrapy来创建一个解决方案,允许用户在网站上执行搜索查询会实时调用scrapy蜘蛛,蜘蛛会被告知:

  1. 登录第三方写作
  2. 执行用户搜索查询
  3. 通过指定唯一的结果集容器类和/或xpath来提取生成的html内容,仅检索返回查询的实际html结果。
  4. 修改提取的html结果(通过改造html和/或注入新的页眉/页脚或css元素)。 5)并最终实时返回修改后的html结果,以便html可以通过对用户透明直接注入原始域。
  5. 我应该指出,我熟悉为大规模爬行编写scrapy spider,但我不太熟悉能够用它来构建实时类型的“包装器”的前景或可行性。 / p>

    如果有人有任何有关类似情况的见解,建议或例子,我将非常感激。 CH

1 个答案:

答案 0 :(得分:1)

您可以在http://htql.net/尝试用于python的HTQL浏览器界面。 Bing实时搜索的一个例子是:

import htql;
a=htql.Browser(); 
b=a.goUrl("http://www.bing.com/");
c=a.goForm("<form>1", {"q":"test"});
for d in htql.HTQL(c[0], "<a (tx like '%test%')>"): 
    print(d);

e=a.click("<a (tx like '%test%' and not (href like '/search%'))>1");

通过将浏览器更改为:

,它可以与IRobotSoft scraper结合使用,直观地完成所有操作
a=htql.Browser(2); 

可以在本手册中找到更多详细信息http://htql.net/htql-python-manual.pdf或在http://irobotsoft.org/bb/

询问