应用错误收集

考虑到作为新闻站点的任何Web域，我想提取与该域的文章相关联的所有URL（而不是诸如隐私权政策，支持等之类的URL）。例如，对于CNN，此类网址应为https://www.cnn.com/2019/06/14/politics/sarah-sanders-replacement-trump-white-house/index.html

对于一个特定的Web域，它更简单，但这很难，因为我需要在任何域中都使用通用名称。我尝试使用自己的启发式方法，使用BeautifulSoup从每个主页提取html源，并根据url和标题属性内容（即url中的“-”号和标题中的单词数）过滤hrefs。此方法适用于某种格式的网站，但显然不适用于所有网站。 Python中是否存在任何库或刮板，或者有人知道针对此刮板问题的更好的启发式方法吗？

构建一个通用工具来从域中提取文章网址

0 个答案: