Question

我有一个文本文件，其中包含indeed.com，careerbuilder.com等职位搜索网站列表。我需要抓取文本文件中列出的每个站点，使用 Python 查找给定关键字的作业。这里的问题是，每个站点都有自己的布局。我需要使用相同的程序来删除它们，而不是为列出的每个站点编写单独的代码。有人可以帮我弄这个吗？？

Answer 1

对不起，据我所知，没有官方软件进行网页拼接的原因也是出于同样的原因。你必须研究页面布局并为它编写合适的程序。没有一种解决方案适合网络抓取。即使是正则表达中的坏蛋也不会有多大帮助。

之前我曾经历过类似的情况

Answer 2

刮痧需要一些搜索参数。当我以前刮网站时，我在功能之间进行了搜索，发现了网站上不同用途的唯一html包装（名称，号码，地址）等。它们可能存储为：

<div class="userName" id="userName">This is a username</div>

所以我会使用一个函数来搜索html的第一部分，并以搜索结束div结束它并返回其间的内容。

然而，不同的网站不太可能具有相同的html结构。因此，您必须为每个不同的网站编写规则。

希望这有帮助

刮取多个工作列表网站以提取工作描述，位置等

2 个答案: