应用错误收集

时间：2013-01-01 14:19:50

标签： machine-learning classification statistics

给定一个HTML表，其中没有一个单元标识为“＆lt; th＆gt;”或“标题”单元格，我想自动检测表格是“垂直”表格还是“水平”表格。

例如：这是一个水平表：

enter image description here

这是一张垂直表：

enter image description here

当然要记住，在分类时不会提供“Bold”属性以及阴影和任何样式属性。

我正在考虑通过统计方法来解决这个问题，我可以手写一些功能，例如“如果第一行有数字，但第一行没有。那可能是一个垂直表”并为每个功能提供分数并结合起来决定表格方向的类别。

你是怎么解决这个问题的？我之前没有使用任何基于统计的算法，我不确定这样的问题最适合什么

答案 0 :(得分：1)

这是一个有点令人困惑的问题。你问的是ML方法，但似乎你还没有创建训练/交叉验证/测试集。没有数据预处理步骤，任何关于ML方法的讨论都是无用的。

如果我是对的，你还没有创建数据集 - 给我们更多关于数据的信息（如果你看一个例子，你怎么知道这个表是垂直的还是水平的？，你有多少数据，你总是确定s表是垂直/水平，...）

如果您已经创建了培训/交叉/测试集 - 请向我们提供更多详细信息，了解培训集的外观（功能有哪些，示例数量，您需要白盒解决方案吗？可以看出为什么ML模型会给你这个结果），...）

答案 1 :(得分：0)

表的域名有多普遍？我知道一些Web表模式识别算法使用来自常规知识模式（如Freebase）的类型，属性和实例数据来尝试识别与列关联的属性。您可以尝试在分类器中利用这些知识。

如果你想在没有任何外部信息的情况下这样做，你需要一堆手工标记的水平和垂直示例。

你说“当然”字体信息不可用，但我不会那么快就忽略它，因为它可能是非常有用信息的来源。您确定无法从管道中获取更多数据，以便您可以访问此信息吗？