我正在尝试使用命令--token-regex '[\p{L}\p{M}]+',
和常用命令导入文本,以便槌可以读取德语文本。不显示错误消息并创建新文件。然而,这很可疑。
然后,使用train-topics
运行主题模型,将显示以下错误消息:
3 5
4 5
5 5
6 5
7 5
8 5
9 5
Infinite value after topic 0 0
<350> LL/token: ´┐¢
Infinite value after topic 0 0
<360> LL/token: ´┐¢
Infinite value after topic 0 0
<370> LL/token: ´┐¢
Infinite value after topic 0 0
<380> LL/token: ´┐¢
Infinite value after topic 0 0
<390> LL/token: ´┐¢
我一直在尝试使用不同的令牌正则表达式命令来解决这个问题几个小时,但似乎没有任何工作,任何帮助都会大大降低。
答案 0 :(得分:-2)
如果您使用的是Windows,请尝试以下操作:
--token-regex "[\p{L}\p{M}]+"
UPD:你可以在这里找到关于“cmd.exe中的单引号和双引号”的讨论:What does single quote do in windows batch files?