给定一个HTML表,其中没有一个单元标识为“< th>”或“标题”单元格,我想自动检测表格是“垂直”表格还是“水平”表格。
例如: 这是一个水平表:
这是一张垂直表:
当然要记住,在分类时不会提供“Bold”属性以及阴影和任何样式属性。
我正在考虑通过统计方法来解决这个问题,我可以手写一些功能,例如“如果第一行有数字,但第一行没有。那可能是一个垂直表”并为每个功能提供分数并结合起来决定表格方向的类别。
你是怎么解决这个问题的?我之前没有使用任何基于统计的算法,我不确定这样的问题最适合什么
答案 0 :(得分:1)
这是一个有点令人困惑的问题。你问的是ML方法,但似乎你还没有创建训练/交叉验证/测试集。没有数据预处理步骤,任何关于ML方法的讨论都是无用的。
如果我是对的,你还没有创建数据集 - 给我们更多关于数据的信息(如果你看一个例子,你怎么知道这个表是垂直的还是水平的? ,你有多少数据,你总是确定s表是垂直/水平,...)
如果您已经创建了培训/交叉/测试集 - 请向我们提供更多详细信息,了解培训集的外观(功能有哪些,示例数量,您需要白盒解决方案吗?可以看出为什么ML模型会给你这个结果),...)
答案 1 :(得分:0)
表的域名有多普遍?我知道一些Web表模式识别算法使用来自常规知识模式(如Freebase)的类型,属性和实例数据来尝试识别与列关联的属性。您可以尝试在分类器中利用这些知识。
如果你想在没有任何外部信息的情况下这样做,你需要一堆手工标记的水平和垂直示例。
你说“当然”字体信息不可用,但我不会那么快就忽略它,因为它可能是非常有用信息的来源。您确定无法从管道中获取更多数据,以便您可以访问此信息吗?