我应该编写代码,当给出一个文本文件(源代码)作为输入时,将输出哪种编程语言。这是问题的最基本定义。接下来是更多限制因素:
如果能够以一种方式编写代码,即添加用于识别的新语言相当容易并且仅涉及为该特定语言添加“设置/数据”,那将是非常好的。我可以使用任何可用的东西 - 启发式,神经网络,黑魔法。任何东西。我甚至被允许使用现有的解决方案,但是:解决方案必须是免费的,开源的并允许商业用途。它必须以易于集成的源代码或静态库的形式出现 - 没有DLL。但是,我更喜欢编写自己的代码或只使用其他解决方案的片段,我厌倦了整合其他代码。最后一点:也许你们中的一些人会建议FANN(快速人工神经网络库) - 这是我唯一不能使用的东西,因为这是我们使用ALREADY的东西,我们想要替换它。
现在问题是:你将如何处理这样的任务,你会怎么做?有任何建议如何实现这个或使用什么?
编辑:根据评论和答案,我必须强调一些我忘记的事情:速度是至关重要的,因为这将获得数千个文件并且应该快速回答,所以看一千文件应该在最多几秒钟内为所有文件生成答案(文件的大小当然很小,每个文件几KB)。所以试图编译每一个都是不可能的。问题是,我真的想要每种语言的概率 - 所以我宁愿知道该文件可能是C或C ++,但它是bash脚本的可能性非常低。由于代码混淆,评论等。我认为寻找100%准确的代码是一个坏主意,事实上并不是这个目标。
答案 0 :(得分:11)
您遇到document classification问题。我建议你阅读naive bayes classifiers和support vector machines。在文章中有链接到实现这些算法的库,其中许多都有C ++接口。
答案 1 :(得分:7)
我能想到的一个简单的解决方案是,您可以识别不同语言中使用的关键字。每个识别出的单词将得+1。然后计算ratio = identified_words / total_words。获得最多分数的语言是胜利者。当然,有一些问题,例如使用评论e.t.c.但我认为这是一个非常简单的解决方案,应该适用于大多数情况。
答案 2 :(得分:3)
很抱歉,如果您必须解析数千个文件,那么最好的办法是查看文件扩展名。不要过度设计一个简单的问题,或者对简单的任务施加繁重的要求。
听起来你有成千上万的源代码文件,你不知道他们编写了什么样的编程语言。你在什么样的编程环境中工作? (排除人工作业要求的可能性)我的意思是我总能依赖的软件工程的基础之一是c ++代码文件具有.cpp扩展名,java代码文件具有.java扩展名,即c代码文件有.c扩展等等......你的公司是否在快速和宽松地使用这些标准?如果是这样,我会非常担心。
答案 3 :(得分:2)
如果您知道源文件符合标准,则文件扩展名对于几乎所有语言都是唯一的。我假设你已经考虑过这个并根据其他一些信息排除了它。
如果您不能使用文件扩展名,最好的方法是找到最不同的语言之间的东西,并使用它们来确定文件类型。例如,for循环语句语法在语言之间不会有太大差异,但包include语句应该。如果你有一个包含java.util。*的文件,那么你知道它是一个java文件。
答案 4 :(得分:2)
正如dmckee建议的那样,你可能想看看那个source is available的Unix file
程序。该实用程序使用的启发式方法可能是一个很好的灵感来源。由于它是用C语言编写的,我猜它有资格使用C ++。 :)但你不直接获得信心百分比;也许他们在内部使用?
答案 5 :(得分:1)
答案 6 :(得分:1)
由于语言列表是预先知道的,因此您可以了解每种语言的语法/语法。 因此,您可以编写一个函数来从提供的源代码中提取保留字。
构建一个二叉树,其中包含您支持的所有语言的所有保留字。然后用上一步中提取的保留字来走这棵树。
如果最终你只剩1个可能性 - 这是你的语言。 如果你太快到达程序的末尾 - 然后(从你停止的地方) - 你可以分析你在树上的位置,以确定哪些语言仍然是可能的。
答案 7 :(得分:0)
您可以尝试考虑语言差异并使用二叉树对其进行建模,例如“找到要素X吗?”如果是,则向一个方向前进,否则向另一个方向前进。
通过有效地构建此搜索树,您可以以相当快的代码结束。
答案 8 :(得分:0)
这个并不快,可能无法满足您的要求,只是一个想法。它应该易于实现,并且应该给出100%的结果。
您可以尝试使用不同的编译器/解释器(opensource或free)编译/执行输入文本,并检查场景背后的错误。
答案 9 :(得分:0)
Sequitur算法从终端符号序列中推断出无上下文语法。也许您可以使用它来比较每种语言的一组已知生产规则。