和你们很多人一样,我经常用几种语言写作。当涉及到规划的东西,(甚至回答一些SO问题)时,我实际上是用一些未指明的混合语言来思考和写作。虽然我过去常常使用流程图或类似UML的图表来教我这样做,但回想起来,我发现“my”伪代码语言包含C
,Python
的组件, Java
,bash
,Matlab
,perl
,Basic
。我似乎无意识地选择了最适合表达概念/算法的成语。
常见习语可能包括范围类似Java的括号,pythonic列表推导或缩进,继承C ++,C#-style lambdas,类似matlab的切片和矩阵操作。
我注意到人们很容易认识到我正在试图做什么,并且人们很容易智能地翻译成其他语言。当然,这一步涉及考虑角落案例,以及每种语言特殊行为的时刻。
但实际上,大多数这些语言共享一个关键字和库函数的子集,这些函数通常表现相同 - 数学函数,类型名称,while
/ for
/ if
等。显然我必须排除许多'奇怪'语言,如lisp,APL衍生物,但......
所以我的问题是,
是否已存在识别文本文件的编程语言的代码? (当然,这必须是比eclipse的语法树更简单的任务,或者比谷歌翻译的语言猜测功能,对吗?)事实上,SO语法高亮显示器是否做了这样的事情?
理论上是否可能创建单个解释器或编译器,以识别您在任何时刻使用的语言习惯用语(可能“智能地”)执行或转换为可运行的表单。并标记我的语法在行为方面不明确的极端情况。我看到的直接困难包括:知道何时在依赖于缩进和依赖于支撑的模式之间切换,识别有趣的运算符(如*pointer
vs *kwargs
)以及知道何时使用列表与数组类似的表示。 / p>
是否存在可以管理这种灵活口译的语言或口译?
我是否错过了明显的障碍?
感谢大家的回答和想法。我打算编写一个基于约束的启发式转换器,它可以潜在地,“解决”代码以达到预期的意义并转换为真正的python代码。它将注意到来自许多常用语言的关键词,并将使用句法线索来消除人类意图的歧义 - 例如间距,括号,可选辅助词(如let
或then
),变量先前如何使用的上下文等,加上常见约定的知识(如资本名称,i用于迭代,以及对变量/方法命名的简单有限理解,例如包含单词get
,asynchronous
,count
,{{1 },last
,previous
等)。在真正的伪代码中,变量命名与操作本身一样丰富!
使用这些线索,它将创建关于每个操作的实现的假设(如基于0/1的索引,何时应该捕获或忽略异常,哪些变量应该是const / global / local,从哪里开始和结束执行,以及哪些位应该在单独的线程中,注意数字单位匹配/需要转换时)。每个假设都有一定的确定性 - 程序将列出每个语句的假设,因为它会哄骗你写入可执行文件的内容!
对于每个假设,如果您不喜欢初始解释,您可以“澄清”您的代码。图书馆问题非常有趣。我的翻译器就像一些IDE一样,将读取所有模块中可用的所有定义,使用一些关于哪些类/方法最常使用和在什么情况下使用的统计数据,并且只是猜测! (在程序中添加一个注释,说明为什么会这样猜测......)我想它应该尝试执行所有操作,并警告你不喜欢它。它应该允许任何内容,但如果你的含糊不清,请告诉你几种可供选择的解释。
在它可以管理诸如@Albin Sunnanbo的my
示例等不寻常的例子之前肯定还需要一段时间。但是我会告诉你我是怎么过的!
答案 0 :(得分:3)
我认为除了玩具示例和严格的数学算法之外,这对于一切都是无用的。对于其他一切,语言不仅仅是语言。围绕这些语言有许多标准库和整个环境。我想在编写“实际代码”时,我写的文件调用行数几乎一样多。
在C#中你有.NET Framework,在C ++中你有STL,在Java中你有一些Java库等。
这些库之间的差异太大而不仅仅是语法上的细微差别。
<主观>
已经尝试将不同语言的语言结构统一为“统一语法”。这被称为4GL语言,从未真正采用过。
< /主观>
作为旁注,我看到了一个关于页面长度的代码示例,该代码示例作为c#,Java和Java脚本代码有效。这可以作为无法确定实际使用语言的例子。
foreach c in ImportantCustomers{== OrderValue >=$1M}
SendMailInviteToSpecialEvent(c)
现在告诉我它是什么语言并为此写一个翻译。
答案 1 :(得分:3)
请注意,我认为4a,4b不一定是可能的障碍。我认为它对任何实际目的都没用。
答案 2 :(得分:2)
认识到一个程序所使用的语言真的不是什么大不了的事。认识到代码片段的语言更加困难,并且识别没有明确分隔的片段(如果四行是Python,下一个是C或Java,你会怎么做?)将会非常困难。
假设您已将这些行分配给正确的语言,那么进行任何类型的编译都需要专门的编译器来处理所有合作的语言。这本身就是一项巨大的工作。
此外,当您编写伪代码时,您不必担心语法。 (如果你是,你做错了。)你最终会得到一些根本无法编译的代码,因为它不完整甚至是矛盾的。
而且,假设你克服了所有这些障碍,那么伪代码是如何被解释的,就像你在思考一样?
你将拥有一种新的计算机语言,你必须编写正确的程序。这将是一种庞大而模糊的语言,很难正确使用。它的使用需要非常小心。这几乎就是你在伪代码中不想要的东西。伪代码的价值在于您可以快速勾画出算法,而无需担心细节。那将完全失去。
如果您想要一种易于编写的语言,请学习一门。 Python是一个不错的选择。使用伪代码勾画出应该如何进行处理,而不是作为可编译的语言。
答案 3 :(得分:2)
解释人类输入的程序需要选择“我不知道”。 PL / I语言是一个着名的系统示例,旨在找到类似于计算机程序的任何东西的合理解释,当它猜错时可能会造成严重破坏:见http://horningtales.blogspot.com/2006/10/my-first-pli-program.html
请注意,在后面的C ++语言中,当它解决可能的歧义时,它会限制它尝试的类型强制的范围,并且如果没有唯一的最佳解释,它将标记错误。
答案 4 :(得分:1)
我有一种感觉,2的答案是否定的。所有我需要证明它是假的是一个代码片段,可以由一个称职的程序员以多种方式解释。
答案 5 :(得分:1)
一种有趣的方法是“类似你去”伪代码解释器。也就是说,您可以将语言设置为预先使用,然后在您键入时实时将伪代码转换为实际代码。可以使用交互式设施来澄清含糊不清的内容并允许更正。该机制的一部分可能是转换器试图匹配的代码库。随着时间的推移,它可以根据特定用户的习惯来学习和调整其翻译。
在大多数情况下,一直编程的人可能更愿意使用该语言。但是,我可以看到上述内容对于学习者,“非程序员程序员”,如科学家,以及与各种语言和技能水平的程序员进行头脑风暴会议,都是一个很大的好处。
-Neil
答案 6 :(得分:1)
代码是否已经存在 认识到编程语言 一个文本文件?
是的,Unix file
命令。
(当然这必须少一点 复杂的任务比eclipse的语法 树或谷歌翻译 语言猜测功能,对吧?) 事实上,SO语法是否突出显示 做这样的事情?
据我所知,SO有一个万能的语法高亮显示器,它试图结合每种主要语言的关键词和注释语法。有时它会弄错:
def median(seq):
"""Returns the median of a list."""
seq_sorted = sorted(seq)
if len(seq) & 1:
# For an odd-length list, return the middle item
return seq_sorted[len(seq) // 2]
else:
# For an even-length list, return the mean of the 2 middle items
return (seq_sorted[len(seq) // 2 - 1] + seq_sorted[len(seq) // 2]) / 2
请注意,SO的突出显示器假定//
启动C ++风格的注释,但在Python中它是整数除法运算符。
如果您尝试将多种语言合并为一种语言,这将成为一个主要问题。如果相同的令牌在不同的语言中有不同的含义,你会怎么做?类似的情况是:
^
取幂,还是像C中那样按位XOR?||
逻辑或类似,还是SQL中的字符串连接?1 + "2"
?是将数字转换为字符串(给出“12”),还是将字符串转换为数字(给出3)?是否有任何语言或口译员 在存在,这可以管理这一点 那种灵活的口译?
在另一个论坛上,我听到了一个编译器(IIRC,for FORTRAN)的故事,无论语法错误如何,都会编译任何程序。如果你有这条线
= Y + Z
编译器会识别出变量丢失并自动将语句转换为X = Y + Z
,无论您的程序中是否有X
。
这个程序员有一个用一串连字符开始注释块的约定,如下所示:
C ----------------------------------------
但是有一天,他们忘记了领先的C
,并且编译器窒息试图在它认为是减法运算符之间添加几十个变量。
“灵活的解析”并不总是一件好事。
答案 7 :(得分:1)
要创建“伪代码解释器”,可能有必要设计一种编程语言,以允许用户对其语法进行扩展。已有几种具有此功能的编程语言,例如Coq,Seed7,Agda和Lever。
Coq programming language允许使用“ syntax extensions”,因此可以扩展该语言以解析新的运算符:
Notation "A /\ B" := (and A B).
类似地,可以将Seed7编程语言扩展为使用“ structured syntax definitions”来解析“伪代码”。 Seed7中的while
循环是通过以下方式定义的:
syntax expr: .while.().do.().end.while is -> 25;
或者,可以“训练” statistical machine translation系统以将伪代码转换为真实的编程语言,尽管这需要大量的parallel texts语料库。