对于我的小POC,我正在寻找任何可以使用自然语言处理的开源库,最好是在java中。基本上我打算让一个应用程序以人类语言从用户那里获取输入,并通过过滤提供的文档或网络来返回结果。任何线索将不胜感激。
答案 0 :(得分:0)
“用户语言输入”是文本格式吗?如果为true,则表示您正在查找文本数据检索器。一旦拥有大量文档,示例,内置功能,非常易于使用和出色的社区协作,Apache Lucene非常有用。
从人类自然语言中继承的许多挑战,如词干和停用词,都具有非常好且易于使用的API。例如:
TokenStream tokenStream = new StandardTokenizer(
Version.LUCENE_36, new StringReader(input));
tokenStream = new StopFilter(Version.LUCENE_36, tokenStream, stopWordsSet);
tokenStream = new PorterStemFilter(tokenStream);
祝你好运!