应用错误收集

我正在尝试使用硒来删除一些网站数据。我正在使用css，xpath，id等标准方式来报废它，但是对于每个新网站，我必须通过检查每个网站元素来编写新的硒脚本。

现在我从客户那里收到了一个新要求，他想要一个刮板，无论网站的html结构如何，该刮板都会从“任何网站”中刮除数据。

它应该获取数据并将其放入诸如日期，描述，类别，位置和其他一些标题（如部门，地区等）的列中

对于给定的网站，可能没有上述所有标头，但抓取程序应获取可用数据，并将其放入数据库的相应列中。

而且我需要不使用硒标准方法来做到这一点，对我来说，它就像是一个搜索引擎机器人，可以访问网站并获取h1 h2 h3等。

我很困惑如何实现这一目标，我正在寻找一些提示，想法，建议等以完成我的任务。我希望我的问题对SO有效。

任何编程语言都可以。

预先感谢