虽然我在使用MALLET进行主题建模时添加了额外的停用词列表和默认停用词列表,但主题模型中会出现一些停用词。例如“ın”,“ıf”,“ıt”。我如何确保这些停用词不会出现在主题模型中?主题模型如下。
<5> 05ıı时间门房子人眼睛事情夜女人一天做女孩脸母亲语音汽车之家 事实感觉点经验订单形式人类行为共同一般宗教法部分变更案例证据2 5时间工作水长切割ın方形大顶屋侧建机器粘土片设计
3个5学校人员发展全国美国会员社会计划系统经济群体问题教育班学生工作政策儿童4 5年约克周家庭音乐美国城市房子总统日学校俱乐部威廉显示白色ın天家庭之夜
5 5 t时间火脚河长路边英里游戏陆地打击战争枪大球开始武器 6手5水白手ın黑色食物眼睛脸慢慢太阳冷t生活红头热辣长身体 7个数字系统数据表面温度高低型体积信息材料压力进给形式小结果显示方法8 5世界生活教会神战时间伟大的死亡书籍英国ın世纪历史英国法国西部苏维埃爱情精神
9州长联合政府一般事务联邦部门法院税务费用百万公司秘书行为公共服务业感谢您的建议
答案 0 :(得分:1)
检查你的停用词的拼写。默认情况下,Mallet会降低您的语料库,但它不会缩小您的停用词!
同时检查您的停用词文件的格式:Mallet期望它是每行一个字。
不要忘记命令strcat
选项--stoplist-file yourstopwordfile.txt
。
编辑:小心输入文件中的OCR错误:我看到主题中的单词“ın”拼写为无点我(用于土耳其拼写法),而不是通常的点缀我。因此,要么在主题建模之前应用一些OCR校正,要么使用无点的i拼写错误的其他停用词。
EDIT2:dotless-i“ın”,“ıf”,“ıt”还有另一个可能的来源:Mallet降低了语料库中的所有单词。当您的语言环境设置为土耳其语时,Java会将大写字母I降低为无点i。检查您的JAVA语言设置并从头开始重新创建主题模式。