使用deeplearning自动提取html数据

时间:2016-09-21 12:53:00

标签: nlp deep-learning information-extraction structured-data

我们正在处理网页,目的是让网络抓取工具从中提取数据项/字段并自动将数据放入数据库表中,而无需手动配置每个html页面来实现这一点。我们有足够的培训样本,我们正在尝试使用deeplearning,我们提出了几种方法:

  1. 从网页到数据库中的结构化数据的端到端映射,我想使用问答或总结范例,但是关于这些主题的当前论文使用一段文本作为输入,而不是html页面。是否有适合html情境的深度学习模型?
  2. 分解问题(深度学习模型可以处理):分别处理<td></td>标签,使用某些cnn或rnn文本分类模型将每个标签分类为数据库的项目/字段。问题是可能有许多标签包含相同类别的信息(公司名称,时间等),我们无法知道我们想要哪一个。也许我们可以结合一些&#34;位置&#34; html的功能,仍然不清楚如何定义这些功能以及如何将这些功能合并到分类模型中以获得某种端到端的框架。
  3. 有更好的方法吗?

0 个答案:

没有答案