是否有可能创建一个搜索引擎来索引来自许多公司网站的新工作?

时间:2010-05-13 19:44:00

标签: php mysql

我不认为没有雇主网站给出的一些xml / api可以吗?

基本上我可以从html页面中提取和识别信息吗?

3 个答案:

答案 0 :(得分:6)

理论上,你可以抓住雇主网站获取招聘广告是徒劳的,徒劳的努力,需要非常复杂的编程,模式识别,手动后处理(很多次)系统会弄错,并不断更新。

此外,还有法律问题。虽然通常允许抓取过程,但大多数网站都禁止自动处理其数据,因此当您重新发布以这种方式提取的任何工作要约时,您可能会遇到很多麻烦。

您需要使用XML或其他类型的结构化,标准化的合法数据。

如果你无法做到这一点,我会说忘掉它并为你的时间做一些更快乐的事情。

答案 1 :(得分:2)

有些人会尝试使用屏幕抓取功能 - 根据对(x)html结构的了解,逐字地获取文本并尝试解析信息。这是非常不赞成的,因为假设如果目标站点的所有者想要共享数据,那么数据将作为提要或Web服务提供。

也许问问他们?

答案 2 :(得分:1)

这可能是可能的,但我想这不合法,至少非常阴暗。我会寻求更好的解决方案,比如要求公司获得xml feed或类似的东西。