在结构化列中抓取网站数据

时间:2018-07-13 12:35:28

标签: web-scraping

我正在尝试使用硒来删除一些网站数据。我正在使用css,xpath,id等标准方式来报废它,但是对于每个新网站,我必须通过检查每个网站元素来编写新的硒脚本。

现在我从客户那里收到了一个新要求,他想要一个刮板,无论网站的html结构如何,该刮板都会从“任何网站”中刮除数据。

它应该获取数据并将其放入诸如日期,描述,类别,位置和其他一些标题(如部门,地区等)的列中

对于给定的网站,可能没有上述所有标头,但抓取程序应获取可用数据,并将其放入数据库的相应列中。

而且我需要不使用硒标准方法来做到这一点,对我来说,它就像是一个搜索引擎机器人,可以访问网站并获取h1 h2 h3等。

我很困惑如何实现这一目标,我正在寻找一些提示,想法,建议等以完成我的任务。我希望我的问题对SO有效。

任何编程语言都可以。

预先感谢

0 个答案:

没有答案