标签: c# .net parsing text lucene
我正在尝试从未知文件格式中提取所有“英语类似”的单词和短语,以便在Lucene中进行索引。它基本上充满了随意字符,穿插着英语单词块。目标是能够提取大部分单词以传递给Lucene来索引它们 - 不需要完全准确的解析或100%可读的结果。 Lucene的任何分析人员都可以完成这项工作吗,或者是否有已知技术从未知文件中提取类似英语的文本。