应用错误收集

Gensim中的Html文档的LDA

时间：2014-03-12 19:06:18

标签： python gensim

我有一堆html文件10-15，我必须在gensim中应用LDA算法我不知道如何创建语料库，因为我不明白我是如何为一组html文档设计语料库的。网站上的示例显示了在维基百科压缩文件.xml.bz

上创建它们

任何人都可以指导我如何在一堆html文档上应用LDA。提前致谢

1 个答案:

答案 0 :(得分：1)

查看HTML处理库，例如lxml或beautifulsoup。

对于更高级别的处理（删除样板，从HTML中提取纯文本），请查看例如Honza Pomikalek的jusText包裹。

获得纯文本文档后，您可以按gensim's tutorials继续。