Python:如何从html文件中获取文本

时间:2016-09-14 21:11:01

标签: python html

我有一个包含html-file

的文件夹
import os
indir = 'html/'
for root, dirs, filenames in os.walk(indir):
    for f in filenames:
        page = open(f)

但它返回IOError: [Errno 2] No such file or directory: '0out.html'.

但有文件0out.html, 1out.html, 2out.html。 我也尝试codecs但它也会返回此错误。 哪里有错误?

1 个答案:

答案 0 :(得分:0)

您需要预先添加文件的路径。

import os
indir = 'html/'
for root, dirs, filenames in os.walk(indir):
    for f in filenames:
        page = open(os.path.join(indir ,f)) # <-- note the added path

没有它,您正在尝试打开一个名为0out.html的文件,该文件是indir的对等文件。在前置路径时,表明它是一个孩子。