考虑到作为新闻站点的任何Web域,我想提取与该域的文章相关联的所有URL(而不是诸如隐私权政策,支持等之类的URL)。例如,对于CNN,此类网址应为https://www.cnn.com/2019/06/14/politics/sarah-sanders-replacement-trump-white-house/index.html
对于一个特定的Web域,它更简单,但这很难,因为我需要在任何域中都使用通用名称。我尝试使用自己的启发式方法,使用BeautifulSoup从每个主页提取html源,并根据url和标题属性内容(即url中的“-”号和标题中的单词数)过滤hrefs。此方法适用于某种格式的网站,但显然不适用于所有网站。 Python中是否存在任何库或刮板,或者有人知道针对此刮板问题的更好的启发式方法吗?