我正在尝试使用硒来删除一些网站数据。我正在使用css,xpath,id等标准方式来报废它,但是对于每个新网站,我必须通过检查每个网站元素来编写新的硒脚本。
现在我从客户那里收到了一个新要求,他想要一个刮板,无论网站的html结构如何,该刮板都会从“任何网站”中刮除数据。
它应该获取数据并将其放入诸如日期,描述,类别,位置和其他一些标题(如部门,地区等)的列中
对于给定的网站,可能没有上述所有标头,但抓取程序应获取可用数据,并将其放入数据库的相应列中。
而且我需要不使用硒标准方法来做到这一点,对我来说,它就像是一个搜索引擎机器人,可以访问网站并获取h1 h2 h3等。
我很困惑如何实现这一目标,我正在寻找一些提示,想法,建议等以完成我的任务。我希望我的问题对SO有效。
任何编程语言都可以。
预先感谢