BeautifulSoup在带有反斜杠的路径上窒息

时间:2010-09-07 19:57:59

标签: python path beautifulsoup

我编写了一个脚本来自动创建图库的过程。我使用os.path.join()来创建新图像目录的路径。

我只是在创建了所有使用os.path.join()的画廊之后才重新使用它并不是一个好主意,因为它创建路径\(在Windows上)导致firefox出现问题(它似乎没有了解路径格式,无法找到图像。)

我不必再次创建所有的画廊,因为必须手动输入画廊标题。我以为BeautifulSoups prettify()会修复路径,但它会在反斜杠上窒息。 e.g。

输入:

<td><a rel="group" href="images\042.jpg"><img class="gimage" src="images\thumbnails\thumb_042.jpg" alt=""></a></td>

输出:

<td>
 <a rel="example_group" href="images">
  <img class="gimage" src="images   humbnails   humb_042.jpg" alt="" />
 </a>
</td>

如何修复路径?

1 个答案:

答案 0 :(得分:1)

在这种情况下,根据评论,似乎可以用a解决问题 全球替换/ \

import fileinput
import sys
for line in fileinput.input(['test.html'], inplace=True, backup='.bak'):
    sys.stdout.write(line.replace('\\','/'))