如何使用python

时间:2019-07-13 08:58:20

标签: python html

我有超过70,000个html类型文档的列表。我只需要使用python提取这些html类型文档的文本,没有标签,没有图像...,并将它们托管在一个新文档中。 因此,例如,我有1.html文档,我必须使用干净的文本创建一个名为1.txt的新文档。 对于html类型的70000个文档,所有这些都是递归的。

我目前可以列出它们:

for dirpath, dirnames, files in os.walk('/Users/daniel/Downloads/all_documents/'):
    print(f'Found directory: {dirpath}')
    for file_name in files:
        count +=1
        print(file_name)

输出:

Found directory: /Users/daniel/Downloads/all_documents/
1375.html
340.html
1725.html
710.html
2559.html
2109.html
205.html
1230.html
655.html
1660.html
985.html
.
.
.
.

0 个答案:

没有答案