内容检测算法

时间:2012-01-29 16:13:11

标签: algorithm text open-source detection

我正在尝试重现Clearly完成的网页“内容检测”。

鉴于网页,我想自动区分文字内容,而不是文字菜单,文字广告,文字按钮等。

哪些算法适合检测HTML页面中的文本内容?

[在StackOverflow的情况下,内容将是实际问题。所有其余的只是“围绕内容松散”。]

1 个答案:

答案 0 :(得分:1)

您可能想看一下Readability的算法。

What algorithm does Readability use for extracting text from URLs?