应用错误收集

如何在html页面中找到内容项的边界？

时间：2012-05-09 14:34:33

标签： html-parsing web-crawler

我正在寻找一种算法（或实现一个的lib），它将为HTML中的内容项找到“最佳”匹配边界。例如，在news.google.com上，它将是包含每个故事标题+图片+摘要的元素。在Stackoverflow的主页面中，它将是包含其计数器等问题的元素。我正在寻找一种通用方法。感谢

0 个答案:

没有答案