基于URL为文件创建文件名的明智方法?

时间:2016-06-01 21:14:46

标签: python filesystems naming

我正在截取一堆网页,使用Python和Selenium。我想在本地保存PNG以供参考。 URL列表如下所示:

www.mysite.com/dir1/pageA
www.mysite.com/dir1/pageB

我的问题是关于为截断的PNG提供哪些文件名。

如果我调用图像文件,例如www.mysite.com/dir1/pageA.png毫无意义的斜线在某些时候不可避免地会引发问题。

我可以用/替换网址中的所有_字符,但我怀疑这可能会导致问题,例如如果网址中已有_个字符。 (我并不是非常需要能够从文件名向URL工作,但这不是一件坏事。)

什么是处理命名的明智方法?

2 个答案:

答案 0 :(得分:1)

表示服务器上几乎可以肯定的目录结构的最简单方法是像wget那样做,并在本地计算机上复制该结构。

因此/个字符成为目录分隔符,www.mysite.com/dir1/pageA.png将成为名为pageA.png的名为dir1的PNG文件,而dir1是位于名为www.mysite.com

的目录中

这很简单,保证可逆,并且不会产生模棱两可的风险。

答案 1 :(得分:0)

如果您使用'%2F'该怎么办?这是' /'但是html编码。

源: http://www.w3schools.com/tags/ref_urlencode.asp