当前位置：首页 > C > 正文

C语言语法分析状态机（从零构建词法分析器的核心逻辑）

主机测评网
C
2025-12-17
273

在学习编译原理或开发小型编程语言时，C语言语法分析是一个关键环节。而其中最基础、最重要的部分之一就是词法分析器（Lexer），它通常使用状态机实现来识别源代码中的关键字、标识符、数字、运算符等基本单元（Token）。本文将带你从零开始，用通俗易懂的方式理解并实现一个简单的 C 语言词法分析状态机。

什么是状态机？

状态机（State Machine）是一种数学模型，用于描述对象在不同“状态”之间的转换。在词法分析中，我们通过读取字符流，根据当前字符决定进入哪个状态，从而识别出完整的 Token。

例如，当我们读到字符 'i'，可能处于“识别标识符”的状态；如果接下来是 'f'，就可能是关键字 if；如果后面是其他字母，则可能是普通变量名。

C语言语法分析状态机（从零构建词法分析器的核心逻辑） C语言语法分析状态机实现 C语言编译器词法分析器第1张

设计一个简单的 C 语言词法分析状态机

我们将实现一个能识别以下 Token 的简化版词法分析器：

关键字：如 if、else、int
标识符：以字母或下划线开头的字母数字组合
整数常量：如 123
运算符：如 +、-、*、/、=
分隔符：如 (、)、{、}、;

状态定义

我们定义几个核心状态：

START：初始状态
IN_ID：正在读取标识符
IN_NUM：正在读取数字
DONE：完成一个 Token 的识别

状态转换逻辑

下面是一个用 C 语言实现的简化状态机主循环：

Token getNextToken(void) {    int state = START;    char buffer[MAX_TOKEN_LEN];    int pos = 0;    while (state != DONE) {        char ch = getNextChar(); // 从输入流读取下一个字符        switch (state) {            case START:                if (isalpha(ch) || ch == '_') {                    buffer[pos++] = ch;                    state = IN_ID;                } else if (isdigit(ch)) {                    buffer[pos++] = ch;                    state = IN_NUM;                } else if (isspace(ch)) {                    // 忽略空白字符，继续                    break;                } else if (ch == '+' || ch == '-' || ch == '*' ||                          ch == '/' || ch == '=') {                    buffer[pos++] = ch;                    state = DONE;                    return makeToken(OPERATOR, buffer);                } else if (ch == '(' || ch == ')' || ch == ';' ||                          ch == '{' || ch == '}') {                    buffer[pos++] = ch;                    state = DONE;                    return makeToken(DELIMITER, buffer);                } else {                    // 错误处理                    fprintf(stderr, "Unexpected character: %c\n", ch);                    exit(1);                }                break;            case IN_ID:                if (isalnum(ch) || ch == '_') {                    buffer[pos++] = ch;                } else {                    ungetChar(ch); // 将非标识符字符放回输入流                    buffer[pos] = '\0';                    state = DONE;                    if (isKeyword(buffer)) {                        return makeToken(KEYWORD, buffer);                    } else {                        return makeToken(IDENTIFIER, buffer);                    }                }                break;            case IN_NUM:                if (isdigit(ch)) {                    buffer[pos++] = ch;                } else {                    ungetChar(ch);                    buffer[pos] = '\0';                    state = DONE;                    return makeToken(NUMBER, buffer);                }                break;        }    }    return makeToken(END_OF_FILE, "");}