只删除所有HTML标记的解决方案不适用于我的应用程序。
从目前为止,我发现了两种用Python清理HTML的解决方案:
- 漂白(使用html5lib)。它在开发服务器上运行得非常好,但我不能让它在生产上工作。有一个' ImportError:没有名为html5lib的模块'当我尝试导入html5lib时。就好像文件夹不存在一样。也许GAE的python路径有问题。
- LXML。让它在dev服务器上工作更复杂:必须将两个第三方二进制文件(libxslt和libxml2)安装到我的本地Python,然后pip install lxml。然后在制作时,一旦我在我的app.yaml中声明了lxml库,它就运行得很好。
醇>
有没有比lxml更好的解决方案?
提前致谢