我有一堆html文件10-15,我必须在gensim中应用LDA算法 我不知道如何创建语料库,因为我不明白我是如何为一组html文档设计语料库的。网站上的示例显示了在维基百科压缩文件.xml.bz
上创建它们任何人都可以指导我如何在一堆html文档上应用LDA。 提前致谢
答案 0 :(得分:1)
查看HTML处理库,例如lxml
或beautifulsoup
。
对于更高级别的处理(删除样板,从HTML中提取纯文本),请查看例如Honza Pomikalek的jusText包裹。
获得纯文本文档后,您可以按gensim's tutorials继续。