更快地替代BeautifulSoup,用于解析html文件中的可见文本

时间:2011-10-09 02:42:21

标签: python performance html-parsing

我有一个包含50,000个html文件的目录。对于我想要找到“可见”文本的每个文件(在浏览器中查看文件的人实际可见的文本数据)。我已经看到了一些使用BeautifulSoup等库的精细解决方案,但我想要更快的东西。

我写的基于正则表达式的解决方案并不快。

我可以通过在python中使用某种文件流阅读器加快速度吗?还有哪些更快的替代方案?

(如果解决方案更快,我很高兴因为不使用像BeautifulSoup这样的可信解析器而失去一些准确性。)

编辑:

足够快= 5分钟。更快< = 1.3小时(如果BeautifulSoup平均需要十分之一秒来解析每个文件,这看起来很乐观,基于我之前使用它的工作)

1 个答案:

答案 0 :(得分:2)

听起来你只是想尝试在目录中呈现每个HTML文件。为什么在有很多其他人的时候编写自己的渲染器(用Python或任何其他语言)?

以下是使用w3m的示例(您可以同样使用Lynxlinks,...):

find . -name '*.html' -exec w3m -dump {} \;