应用错误收集

用于搜索的主要数据结构是inverted list。幸运的是，您不需要自己实施它。 Lucene是一种广泛使用的搜索工具，可在内部使用反向列表。

使用Lucene，您可以创建包含多个字段的文档。我们的想法是，其中一些字段将是可搜索的，并带有标准的关键字类型查询。

我已经实现了源代码搜索实用程序，我现在将在以下段落中简要介绍。整个源代码本身存储为一个名为＆＃34; code＆＃34;的非索引字段。（您可以修改源以存储压缩版本。）

对于检索部分，请注意您要用于搜索的关键字可以是函数，类，包或变量的名称。它们也可以是评论中的文字等等。在我的实现中，我使用Java注释语法树（AST）提取了这些信息。您可以通过使用适当的解析器来构建AST来为其他语言执行相同的操作。

另一种可能性是按示例查询（QBE）范例，您可以使用一小段代码从索引代码库中搜索大致相似的代码段。这对于检测源代码重用和剽窃特别有用，这是我开发该工具的主要目的。

项目页面为here。我称之为YASOCS（又一个SOurce Code Searcher）。

搜索速度非常快，因为它使用了倒置列表。您还可以使用Luke（一个开源的Lucene索引可视化工具）来查看＆＃34;自己索引并使用接口执行测试查询。