仅基于表数据检测HTML表格方向

时间:2013-01-01 14:19:50

标签: machine-learning classification statistics

给定一个HTML表,其中没有一个单元标识为“< th>”或“标题”单元格,我想自动检测表格是“垂直”表格还是“水平”表格。

例如: 这是一个水平表:

enter image description here

这是一张垂直表:

enter image description here

当然要记住,在分类时不会提供“Bold”属性以及阴影和任何样式属性。

我正在考虑通过统计方法来解决这个问题,我可以手写一些功能,例如“如果第一行有数字,但第一行没有。那可能是一个垂直表”并为每个功能提供分数并结合起来决定表格方向的类别。

你是怎么解决这个问题的?我之前没有使用任何基于统计的算法,我不确定这样的问题最适合什么

2 个答案:

答案 0 :(得分:1)

这是一个有点令人困惑的问题。你问的是ML方法,但似乎你还没有创建训练/交叉验证/测试集。没有数据预处理步骤,任何关于ML方法的讨论都是无用的。

如果我是对的,你还没有创建数据集 - 给我们更多关于数据的信息(如果你看一个例子,你怎么知道这个表是垂直的还是水平的? ,你有多少数据,你总是确定s表是垂直/水平,...)

如果您已经创建了培训/交叉/测试集 - 请向我们提供更多详细信息,了解培训集的外观(功能有哪些,示例数量,您需要白盒解决方案吗?可以看出为什么ML模型会给你这个结果),...)

答案 1 :(得分:0)

表的域名有多普遍?我知道一些Web表模式识别算法使用来自常规知识模式(如Freebase)的类型,属性和实例数据来尝试识别与列关联的属性。您可以尝试在分类器中利用这些知识。

如果你想在没有任何外部信息的情况下这样做,你需要一堆手工标记的水平和垂直示例。

你说“当然”字体信息不可用,但我不会那么快就忽略它,因为它可能是非常有用信息的来源。您确定无法从管道中获取更多数据,以便您可以访问此信息吗?