在lxml中对表进行分类

时间:2010-09-04 18:32:26

标签: python html-parsing lxml data-extraction

我正在使用大量的html文档。我的任务之一是从文档中提取所有文本。我已经走得很远,但现在我很难过,因为使用表格作为容器/格式化结构来获取非数字性质的信息

我的目标是忽略 - 留下 - 如果它是一个数字字段表,则不提取'table'

我正准备通过获取一个表来实现基于暴力规则的方法,如果超过一定比例的td.text_content()可以被分类为数字,我将决定该表是一个数值表

我想知道其他人是否可以提出更好的方法

1 个答案:

答案 0 :(得分:0)

我建议使用上下文数据解析,例如由IBM's Watson实现,但我认为不可能对表进行分类。你可以发布数字和非数字表的html示例吗?我们会在发布时更新我的​​答案。