Question

我不确定这个语法对于shell命令语言是否正确，该语言也应该能够执行单引号和双引号。似乎非重要的命令工作，例如ls -al | sort | wc -l但简单的单引号不起作用：echo 'foo bar'不起作用。

%{
    #include "shellparser.h"
%}

%option reentrant
%option noyywrap

%x SINGLE_QUOTED
%x DOUBLE_QUOTED

%%

"|"                     { return PIPE; }

[ \t\r]                 { }
[\n]                    { return EOL; }

[a-zA-Z0-9_\.\-]+       { return FILENAME; }

[']                     { BEGIN(SINGLE_QUOTED); }
<SINGLE_QUOTED>[^']+    { }
<SINGLE_QUOTED>[']      { BEGIN(INITIAL); return ARGUMENT; }
<SINGLE_QUOTED><<EOF>>  { return -1; }

["]                     { BEGIN(DOUBLE_QUOTED); }
<DOUBLE_QUOTED>[^"]+    { }
<DOUBLE_QUOTED>["]      { BEGIN(INITIAL); return ARGUMENT; }
<DOUBLE_QUOTED><<EOF>>  { return -1; }

[^ \t\r\n|'"]+          { return ARGUMENT; }

%%

我扫描和解析shell的代码是

 params[0] = NULL;
    printf("> ");
    i=1;
    do {
        lexCode = yylex(scanner);
        text = strdup(yyget_text(scanner));//yyget_text(scanner);
        /*printf("lexCode %d command %s inc:%d", lexCode, text, i);*/
        ca = text;
        if (lexCode != EOL) {
            params[i++] = text;
        }
        Parse(shellParser, lexCode, text);
        if (lexCode == EOL) {
            dump_argv("Before exec_arguments", i, params);
            exec_arguments(i, params);
            corpse_collector();
            Parse(shellParser, 0, NULL);
            i=1;
        }
    } while (lexCode > 0);

    if (-1 == lexCode) {
        fprintf(stderr, "The scanner encountered an error.\n");
    }

CMake构建文件是

cmake_minimum_required(VERSION 3.0)
project(openshell)
find_package(FLEX)
FLEX_TARGET(ShellScanner shellscanner.l shellscanner.c)
set(CMAKE_VERBOSE_MAKEFILE on)
include_directories(/usr/include/readline)
ADD_EXECUTABLE(lemon lemon.c)
add_custom_command(OUTPUT shellparser.c COMMAND lemon -s shellparser.y DEPENDS shellparser.y)
add_executable(openshell shellparser.c ${FLEX_ShellScanner_OUTPUTS} main.c openshell.h errors.c errors.h util.c util.h stack.c stack.h shellscanner.l shellscanner.h)
file(GLOB SOURCES "./*.c")
target_link_libraries(openshell ${READLINE_LIBRARY} ${FLEX_LIBRARIES})
set(CMAKE_C_FLAGS "${CMAKE_C_FLAGS} -Wall -O3 -std=c99")

我的项目可在my github上找到。典型的shell会话，其中只有一些命令由于某些错误而起作用，如下所示。

> ls -al | sort | wc
argument ::= FILENAME .
argumentList ::= argument .
command ::= FILENAME argumentList .
command ::= FILENAME .
command ::= FILENAME .
commandList ::= command .
commandList ::= command PIPE commandList .
commandList ::= command PIPE commandList .
 {(null)} {ls} {-al} {|} {sort} {|} {wc}
     45     398    2270
3874: child 3881 status 0x0000
in ::= in commandList EOL .
> who
command ::= FILENAME .
commandList ::= command .
 {(null)} {who}
dac      :0           2016-04-18 05:17 (:0)
dac      pts/2        2016-04-18 05:20 (:0)
3874: child 3887 status 0x0000
in ::= in commandList EOL .
> ls -al | awk '{print $1}'
argument ::= FILENAME .
argumentList ::= argument .
command ::= FILENAME argumentList .
argument ::= ARGUMENT .
argumentList ::= argument .
command ::= FILENAME argumentList .
commandList ::= command .
commandList ::= command PIPE commandList .
 {(null)} {ls} {-al} {|} {awk} {'}
awk: cmd. line:1: '
awk: cmd. line:1: ^ invalid char ''' in expression
3874: child 3896 status 0x0100
in ::= in commandList EOL .
>

我可以观察到两个命令都会出现同样的错误：echo 'foo bar'在我们希望它导致{echo} {'}时出现乱码{echo} {foo bar}，以便shell剥离引号并执行命令像这样

char *cmd[] = { "/usr/bin/echo", "foo bar", 0 };

Answer 1

yytext包含指向与最近识别的模式匹配的子字符串的指针。

因此，当您的扫描程序在单个引用字符串的末尾返回ARGUMENT时，yytext指向终止的单引号。碰巧，这在调试跟踪中可见。

如果你想＆＃34;积累＆＃34;一个令牌，你应该看一下flex函数yymore()。（并且不要忘记结束单引号不是引用字符串的一部分。）

单引号和双引号字符串返回ARGUMENT既误导又不精确。

这是不精确的，因为双引号字符串的处理方式与单引号字符串的处理方式完全不同，因为封闭的替换语法被扩展，需要对解析器进行递归调用（这需要完成甚至识别结束字符串：考虑"$(echo "Hello, world!")"，作为一个简单的例子。）

这是误导性的，因为引用段的结尾不标记单词的结尾。实际上，一个头脑简单的扫描仪无法正确找到结局。考虑：

x="a b"
printf "[%s]\n" '$x'$x"$x"

最后，我不清楚为什么你选择使用柠檬而不是bison / yacc，因为你没有使用一个能使它在这种情况下有用的功能：它实现了＆＃34; push＆＃34;接口，允许您从词法分析器规则调用解析器。当然，现代野牛版本 - 甚至不那么现代版本 - 也实现了这一功能。并不是说我对柠檬有任何偏见 - 我认为这可能是这个问题的绝佳搭档，正是因为需要进行递归解析。

Answer 2

问题在于规则

<SINGLE_QUOTED>[^']+ { }

因为它会删除引号内的所有字符。所有你得到的＆＃34; yytext＆＃34;是收盘价（由于规则<SINGLE_QUOTED>['] ...）。您必须存储文本的某个位置，并在检测到结束引用时使用它。例如。（非常差的编码风格，错误检查等省略，抱歉）

<SINGLE_QUOTED>[^']+    { mystring = strdup(yytext); }

<SINGLE_QUOTED>[']      { BEGIN(INITIAL);
      /*  mystring contains the whole string now,
           yytext contains only "'" */
                          return ARGUMENT; }

是语法或代码中的错误吗？

2 个答案: