应用错误收集

如何从未知格式解析/提取英语语言文本以便在Lucene中进行索引

时间：2015-03-05 09:20:07

标签： c# .net parsing text lucene

我正在尝试从未知文件格式中提取所有“英语类似”的单词和短语，以便在Lucene中进行索引。它基本上充满了随意字符，穿插着英语单词块。目标是能够提取大部分单词以传递给Lucene来索引它们 - 不需要完全准确的解析或100％可读的结果。 Lucene的任何分析人员都可以完成这项工作吗，或者是否有已知技术从未知文件中提取类似英语的文本。

0 个答案:

没有答案

我可以从PDF中提取中文文本并转换成英文吗？
grails日期格式英文
以不同于英语的方式查询Solr
从英文文本中提取产品名称
SOLR的非英语语言同义词过滤器工厂
如何从未知格式解析/提取英语语言文本以便在Lucene中进行索引
在excel中为非英语语言转换文本中的长日期格式
从Railo中的PDF中提取文本
Solr标准的英语同义词列表
从文本中提取规格列表（未知格式）

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？