我们正在处理网页,目的是让网络抓取工具从中提取数据项/字段并自动将数据放入数据库表中,而无需手动配置每个html页面来实现这一点。我们有足够的培训样本,我们正在尝试使用deeplearning,我们提出了几种方法:
<td></td>
标签,使用某些cnn或rnn文本分类模型将每个标签分类为数据库的项目/字段。问题是可能有许多标签包含相同类别的信息(公司名称,时间等),我们无法知道我们想要哪一个。也许我们可以结合一些&#34;位置&#34; html的功能,仍然不清楚如何定义这些功能以及如何将这些功能合并到分类模型中以获得某种端到端的框架。