Question

我有一个包含50,000个html文件的目录。对于我想要找到“可见”文本的每个文件（在浏览器中查看文件的人实际可见的文本数据）。我已经看到了一些使用BeautifulSoup等库的精细解决方案，但我想要更快的东西。

我写的基于正则表达式的解决方案并不快。

我可以通过在python中使用某种文件流阅读器加快速度吗？还有哪些更快的替代方案？

（如果解决方案更快，我很高兴因为不使用像BeautifulSoup这样的可信解析器而失去一些准确性。）

编辑：

足够快= 5分钟。更快＆lt; = 1.3小时（如果BeautifulSoup平均需要十分之一秒来解析每个文件，这看起来很乐观，基于我之前使用它的工作）

Answer 1

听起来你只是想尝试在目录中呈现每个HTML文件。为什么在有很多其他人的时候编写自己的渲染器（用Python或任何其他语言）？

以下是使用w3m的示例（您可以同样使用Lynx，links，...）：

find . -name '*.html' -exec w3m -dump {} \;