我有超过70,000个html类型文档的列表。我只需要使用python提取这些html类型文档的文本,没有标签,没有图像...,并将它们托管在一个新文档中。 因此,例如,我有1.html文档,我必须使用干净的文本创建一个名为1.txt的新文档。 对于html类型的70000个文档,所有这些都是递归的。
我目前可以列出它们:
for dirpath, dirnames, files in os.walk('/Users/daniel/Downloads/all_documents/'):
print(f'Found directory: {dirpath}')
for file_name in files:
count +=1
print(file_name)
输出:
Found directory: /Users/daniel/Downloads/all_documents/
1375.html
340.html
1725.html
710.html
2559.html
2109.html
205.html
1230.html
655.html
1660.html
985.html
.
.
.
.