通过元素样式从html中提取标题和段落

时间:2017-03-08 11:06:26

标签: machine-learning data-mining text-classification unsupervised-learning

基于元素样式(fontSize,fontWeight,...)从html文件中提取标题和paragraphes的最佳数据挖掘策略是什么。我已经提取了text和fontSize属性并将它们放在一个csv文件中,现在我需要知道如何对这些数据进行分类(或聚类?),以便它可以给我举例说明fontSize为20px的所有元素容差为+ - 5px。这些元素将转换为h1标签,依此类推......

编辑:我能够使用Weka中的曼哈顿距离函数的群集算法Simple KMeans将fontSizes聚类到我想要的群集中。但是,我得到每个群集的精确值,例如:字体大小10px被捕获100次,20px被捕获200次等。我需要有一个范围而不是特定值来覆盖所有值。< / p>

2 个答案:

答案 0 :(得分:0)

首先,这将是一个评论,但我是新的,现在不能写评论。

  

我可以使用Weka中的曼哈顿距离函数的群集算法Simple KMeans将fontSizes聚类到我想要的群集中。但是,我得到每个群集的精确值,例如:字体大小10px被捕获100次,20px被捕获200次等。我需要有一个范围而不是特定值来覆盖所有值。< / p>

您可以使用名为“numClusters”之类的选项指定群集数。因此,您可以强制weka根据需要构建尽可能多的集群,这意味着如果您的值比集群更多,则必须使用范围而不是特定数字

但是我的问题是,为什么不使用简单的循环迭代数据并指定你想要的东西。 像

这样的东西
if(fontSize < 10) {
/*Do s.th*/
}else if(fontSize < 20){
/*Do s.th.
}

因为这似乎更可靠,更容易。 即使您有更多属性,也只需手动定义每个群集的属性范围,并检查是否适合其中一个群集的任何dataSet。

如果你有大量的属性或集群或者对数据没有很好的理解,我只会推荐像weka这样的东西。但你的任务看起来并不那样。

答案 1 :(得分:0)

尝试基于机器学习的boilerpipe java API。您可以测试不同的模型on-line