用于识别文本文件中的编程语言的代码

时间:2010-08-30 12:18:20

标签: c++ algorithm text-processing language-recognition

我应该编写代码,当给出一个文本文件(源代码)作为输入时,将输出哪种编程语言。这是问题的最基本定义。接下来是更多限制因素:

  • 我必须用C ++编写。
  • 应该识别各种语言 - html,php,perl,ruby,C,C ++,Java,C#...
  • 假阳性(错误识别)的数量应该低 - 输出“未知”比错误结果更好。 (它将在概率列表中,例如未知:100%,见下文)
  • 输出应该是代码知道的每种语言的概率列表,因此如果它知道C,Java和Perl,则输出应该是例如:C:70%,Java:50%,Perl:30%(请注意,没有必要将概率总和达到100%)
  • 它应该具有良好的准确度/速度比(速度更有利)

如果能够以一种方式编写代码,即添加用于识别的新语言相当容易并且仅涉及为该特定语言添加“设置/数据”,那将是非常好的。我可以使用任何可用的东西 - 启发式,神经网络,黑魔法。任何东西。我甚至被允许使用现有的解决方案,但是:解决方案必须是免费的,开源的并允许商业用途。它必须以易于集成的源代码或静态库的形式出现 - 没有DLL。但是,我更喜欢编写自己的代码或只使用其他解决方案的片段,我厌倦了整合其他代码。最后一点:也许你们中的一些人会建议FANN(快速人工神经网络库) - 这是我唯一不能使用的东西,因为这是我们使用ALREADY的东西,我们想要替换它。

现在问题是:你将如何处理这样的任务,你会怎么做?有任何建议如何实现这个或使用什么?

编辑:根据评论和答案,我必须强调一些我忘记的事情:速度是至关重要的,因为这将获得数千个文件并且应该快速回答,所以看一千文件应该在最多几秒钟内为所有文件生成答案(文件的大小当然很小,每个文件几KB)。所以试图编译每一个都是不可能的。问题是,我真的想要每种语言的概率 - 所以我宁愿知道该文件可能是C或C ++,但它是bash脚本的可能性非常低。由于代码混淆,评论等。我认为寻找100%准确的代码是一个坏主意,事实上并不是这个目标。

10 个答案:

答案 0 :(得分:11)

您遇到document classification问题。我建议你阅读naive bayes classifierssupport vector machines。在文章中有链接到实现这些算法的库,其中许多都有C ++接口。

答案 1 :(得分:7)

我能想到的一个简单的解决方案是,您可以识别不同语言中使用的关键字。每个识别出的单词将得+1。然后计算ratio = identified_words / total_words。获得最多分数的语言是胜利者。当然,有一些问题,例如使用评论e.t.c.但我认为这是一个非常简单的解决方案,应该适用于大多数情况。

答案 2 :(得分:3)

很抱歉,如果您必须解析数千个文件,那么最好的办法是查看文件扩展名。不要过度设计一个简单的问题,或者对简单的任务施加繁重的要求。

听起来你有成千上万的源代码文件,你不知道他们编写了什么样的编程语言。你在什么样的编程环境中工作? (排除人工作业要求的可能性)我的意思是我总能依赖的软件工程的基础之一是c ++代码文件具有.cpp扩展名,java代码文件具有.java扩展名,即c代码文件有.c扩展等等......你的公司是否在快速和宽松地使用这些标准?如果是这样,我会非常担心。

答案 3 :(得分:2)

如果您知道源文件符合标准,则文件扩展名对于几乎所有语言都是唯一的。我假设你已经考虑过这个并根据其他一些信息排除了它。

如果您不能使用文件扩展名,最好的方法是找到最不同的语言之间的东西,并使用它们来确定文件类型。例如,for循环语句语法在语言之间不会有太大差异,但包include语句应该。如果你有一个包含java.util。*的文件,那么你知道它是一个java文件。

答案 4 :(得分:2)

正如dmckee建议的那样,你可能想看看那个source is available的Unix file程序。该实用程序使用的启发式方法可能是一个很好的灵感来源。由于它是用C语言编写的,我猜它有资格使用C ++。 :)但你不直接获得信心百分比;也许他们在内部使用?

答案 5 :(得分:1)

看看nedit。它具有语法高亮识别系统,在语法高亮 - >识别模式下。您可以浏览样本识别模式here,或下载程序并查看标准模式。

以下是highlighting system

的说明

答案 6 :(得分:1)

由于语言列表是预先知道的,因此您可以了解每种语言的语法/语法。 因此,您可以编写一个函数来从提供的源代码中提取保留字。

构建一个二叉树,其中包含您支持的所有语言的所有保留字。然后用上一步中提取的保留字来走这棵树。

如果最终你只剩1个可能性 - 这是你的语言。 如果你太快到达程序的末尾 - 然后(从你停止的地方) - 你可以分析你在树上的位置,以确定哪些语言仍然是可能的。

答案 7 :(得分:0)

您可以尝试考虑语言差异并使用二叉​​树对其进行建模,例如“找到要素X吗?”如果是,则向一个方向前进,否则向另一个方向前进。

通过有效地构建此搜索树,您可以以相当快的代码结束。

答案 8 :(得分:0)

这个并不快,可能无法满足您的要求,只是一个想法。它应该易于实现,并且应该给出100%的结果。

您可以尝试使用不同的编译器/解释器(opensource或free)编译/执行输入文本,并检查场景背后的错误。

答案 9 :(得分:0)

Sequitur算法从终端符号序列中推断出无上下文语法。也许您可以使用它来比较每种语言的一组已知生产规则。