我有一个包含50,000个html文件的目录。对于我想要找到“可见”文本的每个文件(在浏览器中查看文件的人实际可见的文本数据)。我已经看到了一些使用BeautifulSoup等库的精细解决方案,但我想要更快的东西。
我写的基于正则表达式的解决方案并不快。
我可以通过在python中使用某种文件流阅读器加快速度吗?还有哪些更快的替代方案?
(如果解决方案更快,我很高兴因为不使用像BeautifulSoup这样的可信解析器而失去一些准确性。)
编辑:
足够快= 5分钟。更快< = 1.3小时(如果BeautifulSoup平均需要十分之一秒来解析每个文件,这看起来很乐观,基于我之前使用它的工作)