我已经基于LingPipe DictionaryChunker示例创建了一个测试程序。我正在从字典值中读取一个文件中的MapDictionary。当文件超过100,000个条目时,解析器开始返回垃圾:
对于10k行(tail -10000 nameList.txt> shortNameList.txt)
TEXT =现在是所有好人前来援助他们国家的时候Zoe Rogers现在是所有好人来帮助他们国家的时候了
分块器。所有匹配= false区分大小写= false 短语= |佐伊罗杰斯| start = 69 end = 79 type = PLAYER得分= 1.0
表示100k行(尾部-100000 nameList.txt> shortNameList.txt)
TEXT =现在是所有好人前来援助他们国家的时候Zoe Rogers现在是所有好人来帮助他们国家的时候了
分块器。所有匹配= false区分大小写= false 短语= |现在是所有好男人的时间start = 0 end = 32 type = PLAYER score = 1.0 短语= |来帮助他们的国家| start = 33 end = 68 type = PLAYER得分= 1.0 短语= | Zoe Rogers现在是所有人的时间start = 69 end = 103 type = PLAYER得分= 1.0 短语= |好男人来帮助start = 104 end = 134 type = PLAYER score = 1.0
是否有更好的选择来创建MapDictionary?
我已经改变了虚拟机上的内存限制,这似乎没什么帮助。
任何想法?
答案 0 :(得分:0)
结果表明,允许MapDictionary中的任何值为null会破坏chunker。删除任何带有空值的行后,chunker工作正常。