如何在html页面中找到内容项的边界?

时间:2012-05-09 14:34:33

标签: html-parsing web-crawler

我正在寻找一种算法(或实现一个的lib),它将为HTML中的内容项找到“最佳”匹配边界。 例如,在news.google.com上,它将是包含每个故事标题+图片+摘要的元素。在Stackoverflow的主页面中,它将是包含其计数器等问题的元素。我正在寻找一种通用方法。 感谢

0 个答案:

没有答案