提取HTML文档来自的网站

时间:2013-08-23 04:43:22

标签: python html beautifulsoup

我有一个充满HTML文档的文件夹,这些文件是网页的保存副本,但我需要知道它们来自哪个网站,我可以使用哪些功能从文档中提取网站名称?我没有在BeautifulSoup模块中找到任何东西。我应该在文件中找到具体的内容吗?我不需要知道完整的网址,我只需要知道网站的名称。

1 个答案:

答案 0 :(得分:1)

如果在源代码中某处提到了网址,则只能这样做。

首先找出提到的网址的位置。如果它在那里它可能会在基本标签中。有时网站会有一个很好的标题,其中包含指向其着陆页的链接,如果您想要的只是域名,则可以使用该标题。或者它可能在评论中,取决于你如何保存它。

如果在所有页面中提到URL的方式类似,那么您的工作很简单:使用re或BeautifulSoup或lxml和xpath来获取所需的信息。还有其他可用的工具,但其中任何一种都可以。