刮取多个工作列表网站以提取工作描述,位置等

时间:2018-06-10 14:21:40

标签: python python-3.x web-scraping

我有一个文本文件,其中包含indeed.comcareerbuilder.com等职位搜索网站列表。 我需要抓取文本文件中列出的每个站点,使用 Python 查找给定关键字的作业。 这里的问题是,每个站点都有自己的布局。我需要使用相同的程序来删除它们,而不是为列出的每个站点编写单独的代码。 有人可以帮我弄这个吗??

2 个答案:

答案 0 :(得分:1)

对不起,据我所知,没有官方软件进行网页拼接的原因也是出于同样的原因。你必须研究页面布局并为它编写合适的程序。没有一种解决方案适合网络抓取。即使是正则表达中的坏蛋也不会有多大帮助。

之前我曾经历过类似的情况

答案 1 :(得分:0)

刮痧需要一些搜索参数。当我以前刮网站时,我在功能之间进行了搜索,发现了网站上不同用途的唯一html包装(名称,号码,地址)等。它们可能存储为:

<div class="userName" id="userName">This is a username</div>

所以我会使用一个函数来搜索html的第一部分,并以搜索结束div结束它并返回其间的内容。

然而,不同的网站不太可能具有相同的html结构。因此,您必须为每个不同的网站编写规则。

希望这有帮助