应用错误收集

内容检测算法

时间：2012-01-29 16:13:11

标签： algorithm text open-source detection

我正在尝试重现Clearly完成的网页“内容检测”。

鉴于网页，我想自动区分文字内容，而不是文字菜单，文字广告，文字按钮等。

哪些算法适合检测HTML页面中的文本内容？

[在StackOverflow的情况下，内容将是实际问题。所有其余的只是“围绕内容松散”。]

1 个答案:

答案 0 :(得分：1)

您可能想看一下Readability的算法。

What algorithm does Readability use for extracting text from URLs?