我不认为没有雇主网站给出的一些xml / api可以吗?
基本上我可以从html页面中提取和识别信息吗?
答案 0 :(得分:6)
理论上,你可以抓住雇主网站获取招聘广告是徒劳的,徒劳的努力,需要非常复杂的编程,模式识别,手动后处理(很多次)系统会弄错,并不断更新。
此外,还有法律问题。虽然通常允许抓取过程,但大多数网站都禁止自动处理其数据,因此当您重新发布以这种方式提取的任何工作要约时,您可能会遇到很多麻烦。
您需要使用XML或其他类型的结构化,标准化的合法数据。
如果你无法做到这一点,我会说忘掉它并为你的时间做一些更快乐的事情。
答案 1 :(得分:2)
有些人会尝试使用屏幕抓取功能 - 根据对(x)html结构的了解,逐字地获取文本并尝试解析信息。这是非常不赞成的,因为假设如果目标站点的所有者想要共享数据,那么数据将作为提要或Web服务提供。
也许问问他们?
答案 2 :(得分:1)
这可能是可能的,但我想这不合法,至少非常阴暗。我会寻求更好的解决方案,比如要求公司获得xml feed或类似的东西。