使用import.io搜索具有不同结构的多个网站中的单词

时间:2015-12-21 16:21:43

标签: web-crawler extract import.io

我有超过10,000个网站的列表,我想在所有网站中搜索关键字。

如果网站包含关键字,预期结果应该类似于链接和值为1的列,如果不包含关键字则为0。

有没有办法指定网站列表和要使用import.io搜索的关键字?

1 个答案:

答案 0 :(得分:0)

当您抓取的每个网站都具有类似的结构时,导入io效果最佳。如果你开始使用import io,

1)将所有网站链接放入一列

2)使用“extractor”类型API的“批量提取”选项从每个页面中提取所有文本并将其放入列中。

3)打开导出的Excel或Google电子表格,然后使用“查找”功能查看您的关键字是否包含在每个单元格中

话虽如此,我认为使用不同的网络抓取服务可能会有更好的运气,因为您实际上并不想提取内容。