标签: html-parsing web-crawler
我正在寻找一种算法(或实现一个的lib),它将为HTML中的内容项找到“最佳”匹配边界。 例如,在news.google.com上,它将是包含每个故事标题+图片+摘要的元素。在Stackoverflow的主页面中,它将是包含其计数器等问题的元素。我正在寻找一种通用方法。 感谢