应用错误收集

在lxml中对表进行分类

时间：2010-09-04 18:32:26

标签： python html-parsing lxml data-extraction

我正在使用大量的html文档。我的任务之一是从文档中提取所有文本。我已经走得很远，但现在我很难过，因为使用表格作为容器/格式化结构来获取非数字性质的信息

我的目标是忽略 - 留下 - 如果它是一个数字字段表，则不提取'table'

我正准备通过获取一个表来实现基于暴力规则的方法，如果超过一定比例的td.text_content（）可以被分类为数字，我将决定该表是一个数值表

我想知道其他人是否可以提出更好的方法

1 个答案:

答案 0 :(得分：0)

我建议使用上下文数据解析，例如由IBM's Watson实现，但我认为不可能对表进行分类。你可以发布数字和非数字表的html示例吗？我们会在发布时更新我的答案。