我有数以万计的HTML文档保存到我的计算机上,我需要使用BeautifulSoup解析它们,在每个文档之间使用相同的一致标记。
目前,我遍历我的HTML文件夹,打开每个文件,解析它,然后关闭。但是打开/解析/关闭所需的时间太长。我试图在一个文本文档中保存几个HTML文档并“重做”打开和关闭HTML标记,但我不完全确定解析是如何工作的,所以我不确定重新排列文档而不会弄乱解析过程。
有没有任何一种标准化的方法来做到这一点?如果我能将尽可能多的HMTL代码合并到一个文本文档中,我想我会让这部分过程更快。
编辑: 我在每个html文档中只查找了多达100个单独的“项目”,因此我一次只能解析多达100个。它不是我试图更快地解析我的文档,而是我希望尽可能多地将html文档保存到一个文本文件中,希望能够一次解析1000个项目,或者如果可能的话还要更多。