应用错误收集

用于识别文本文件中的编程语言的代码

时间：2010-08-30 12:18:20

标签： c++ algorithm text-processing language-recognition

我应该编写代码，当给出一个文本文件（源代码）作为输入时，将输出哪种编程语言。这是问题的最基本定义。接下来是更多限制因素：

我必须用C ++编写。
应该识别各种语言 - html，php，perl，ruby，C，C ++，Java，C＃...
假阳性（错误识别）的数量应该低 - 输出“未知”比错误结果更好。（它将在概率列表中，例如未知：100％，见下文）
输出应该是代码知道的每种语言的概率列表，因此如果它知道C，Java和Perl，则输出应该是例如：C：70％，Java：50％，Perl：30％（请注意，没有必要将概率总和达到100％）
它应该具有良好的准确度/速度比（速度更有利）

如果能够以一种方式编写代码，即添加用于识别的新语言相当容易并且仅涉及为该特定语言添加“设置/数据”，那将是非常好的。我可以使用任何可用的东西 - 启发式，神经网络，黑魔法。任何东西。我甚至被允许使用现有的解决方案，但是：解决方案必须是免费的，开源的并允许商业用途。它必须以易于集成的源代码或静态库的形式出现 - 没有DLL。但是，我更喜欢编写自己的代码或只使用其他解决方案的片段，我厌倦了整合其他代码。最后一点：也许你们中的一些人会建议FANN（快速人工神经网络库） - 这是我唯一不能使用的东西，因为这是我们使用ALREADY的东西，我们想要替换它。

现在问题是：你将如何处理这样的任务，你会怎么做？有任何建议如何实现这个或使用什么？

编辑：根据评论和答案，我必须强调一些我忘记的事情：速度是至关重要的，因为这将获得数千个文件并且应该快速回答，所以看一千文件应该在最多几秒钟内为所有文件生成答案（文件的大小当然很小，每个文件几KB）。所以试图编译每一个都是不可能的。问题是，我真的想要每种语言的概率 - 所以我宁愿知道该文件可能是C或C ++，但它是bash脚本的可能性非常低。由于代码混淆，评论等。我认为寻找100％准确的代码是一个坏主意，事实上并不是这个目标。

10 个答案:

答案 0 :(得分：11)

您遇到document classification问题。我建议你阅读naive bayes classifiers和support vector machines。在文章中有链接到实现这些算法的库，其中许多都有C ++接口。

答案 1 :(得分：7)

我能想到的一个简单的解决方案是，您可以识别不同语言中使用的关键字。每个识别出的单词将得+1。然后计算ratio = identified_words / total_words。获得最多分数的语言是胜利者。当然，有一些问题，例如使用评论e.t.c.但我认为这是一个非常简单的解决方案，应该适用于大多数情况。

答案 2 :(得分：3)

很抱歉，如果您必须解析数千个文件，那么最好的办法是查看文件扩展名。不要过度设计一个简单的问题，或者对简单的任务施加繁重的要求。

听起来你有成千上万的源代码文件，你不知道他们编写了什么样的编程语言。你在什么样的编程环境中工作？（排除人工作业要求的可能性）我的意思是我总能依赖的软件工程的基础之一是c ++代码文件具有.cpp扩展名，java代码文件具有.java扩展名，即c代码文件有.c扩展等等......你的公司是否在快速和宽松地使用这些标准？如果是这样，我会非常担心。

答案 3 :(得分：2)

如果您知道源文件符合标准，则文件扩展名对于几乎所有语言都是唯一的。我假设你已经考虑过这个并根据其他一些信息排除了它。

如果您不能使用文件扩展名，最好的方法是找到最不同的语言之间的东西，并使用它们来确定文件类型。例如，for循环语句语法在语言之间不会有太大差异，但包include语句应该。如果你有一个包含java.util。*的文件，那么你知道它是一个java文件。

答案 4 :(得分：2)

正如dmckee建议的那样，你可能想看看那个source is available的Unix file程序。该实用程序使用的启发式方法可能是一个很好的灵感来源。由于它是用C语言编写的，我猜它有资格使用C ++。 :)但你不直接获得信心百分比;也许他们在内部使用？

答案 5 :(得分：1)

看看nedit。它具有语法高亮识别系统，在语法高亮 - >识别模式下。您可以浏览样本识别模式here，或下载程序并查看标准模式。

以下是highlighting system。

的说明

答案 6 :(得分：1)

由于语言列表是预先知道的，因此您可以了解每种语言的语法/语法。因此，您可以编写一个函数来从提供的源代码中提取保留字。

构建一个二叉树，其中包含您支持的所有语言的所有保留字。然后用上一步中提取的保留字来走这棵树。

如果最终你只剩1个可能性 - 这是你的语言。如果你太快到达程序的末尾 - 然后（从你停止的地方） - 你可以分析你在树上的位置，以确定哪些语言仍然是可能的。

答案 7 :(得分：0)

您可以尝试考虑语言差异并使用二叉树对其进行建模，例如“找到要素X吗？”如果是，则向一个方向前进，否则向另一个方向前进。

通过有效地构建此搜索树，您可以以相当快的代码结束。

答案 8 :(得分：0)

这个并不快，可能无法满足您的要求，只是一个想法。它应该易于实现，并且应该给出100％的结果。

您可以尝试使用不同的编译器/解释器（opensource或free）编译/执行输入文本，并检查场景背后的错误。

答案 9 :(得分：0)

Sequitur算法从终端符号序列中推断出无上下文语法。也许您可以使用它来比较每种语言的一组已知生产规则。