我有一个文本文件,其中包含indeed.com,careerbuilder.com等职位搜索网站列表。 我需要抓取文本文件中列出的每个站点,使用 Python 查找给定关键字的作业。 这里的问题是,每个站点都有自己的布局。我需要使用相同的程序来删除它们,而不是为列出的每个站点编写单独的代码。 有人可以帮我弄这个吗??
答案 0 :(得分:1)
对不起,据我所知,没有官方软件进行网页拼接的原因也是出于同样的原因。你必须研究页面布局并为它编写合适的程序。没有一种解决方案适合网络抓取。即使是正则表达中的坏蛋也不会有多大帮助。
之前我曾经历过类似的情况答案 1 :(得分:0)
刮痧需要一些搜索参数。当我以前刮网站时,我在功能之间进行了搜索,发现了网站上不同用途的唯一html包装(名称,号码,地址)等。它们可能存储为:
<div class="userName" id="userName">This is a username</div>
所以我会使用一个函数来搜索html的第一部分,并以搜索结束div结束它并返回其间的内容。
然而,不同的网站不太可能具有相同的html结构。因此,您必须为每个不同的网站编写规则。
希望这有帮助