标签: algorithm text open-source detection
我正在尝试重现Clearly完成的网页“内容检测”。
鉴于网页,我想自动区分文字内容,而不是文字菜单,文字广告,文字按钮等。
哪些算法适合检测HTML页面中的文本内容?
[在StackOverflow的情况下,内容将是实际问题。所有其余的只是“围绕内容松散”。]
答案 0 :(得分:1)
您可能想看一下Readability的算法。
What algorithm does Readability use for extracting text from URLs?