当前位置：首页 > C > 正文

C语言词法分析详解（从零开始实现一个简易词法分析器）

主机测评网
C
2025-12-11
641

在学习编译原理的过程中，C语言词法分析是第一个关键步骤。本文将带你从零开始，用通俗易懂的方式理解并实现一个简易的C语言词法分析器，即使你是编程小白也能轻松上手！

什么是词法分析？

词法分析（Lexical Analysis）是编译器工作的第一阶段。它的任务是将源代码（一串字符）转换成一系列有意义的“单词”（称为记号或Token）。例如，把 int a = 10; 分解为：

int → 关键字（KEYWORD）
a → 标识符（IDENTIFIER）
= → 赋值运算符（ASSIGN）
10 → 整数常量（INTEGER_LITERAL）
; → 分号（SEMICOLON）

C语言词法分析详解（从零开始实现一个简易词法分析器） C语言词法分析 C语言编译器词法分析器实现编程语言基础第1张

词法分析器的基本组成

一个简单的词法分析器通常包含以下部分：

输入缓冲区：读取源代码文件或字符串。
状态机：通过有限状态自动机识别不同类型的Token。
Token生成器：将识别出的字符串打包成结构化的Token。
错误处理：处理非法字符或格式错误。

实现一个简易C语言词法分析器

我们用C语言写一个最基础的词法分析器，支持识别：

关键字（如 int, if, return）
标识符（变量名、函数名等）
整数常量
运算符（+, -, =, == 等）
分隔符（(, ), {, }, ;）

第一步：定义Token类型

typedef enum {    TOKEN_KEYWORD,    TOKEN_IDENTIFIER,    TOKEN_INTEGER,    TOKEN_OPERATOR,    TOKEN_SEPARATOR,    TOKEN_EOF} TokenType;typedef struct {    TokenType type;    char* value;    int line;} Token;

第二步：关键词表

#include <string.h>const char* keywords[] = {"int", "if", "else", "while", "return", "void"};const int KEYWORD_COUNT = 6;int is_keyword(const char* word) {    for (int i = 0; i < KEYWORD_COUNT; i++) {        if (strcmp(word, keywords[i]) == 0) {            return 1;        }    }    return 0;}

第三步：核心词法分析函数

我们逐字符扫描输入字符串，并根据当前字符决定进入哪个状态。

Token next_token(const char** input_ptr) {    const char* input = *input_ptr;    static int line = 1;        // 跳过空白字符    while (*input == ' ' || *input == '\t' || *input == '\n' || *input == '\r') {        if (*input == '\n') line++;        input++;    }        // 到达结尾    if (*input == '\0') {        Token t = {TOKEN_EOF, NULL, line};        *input_ptr = input;        return t;    }        // 处理数字    if (*input >= '0' && *input <= '9') {        char buffer[100];        int i = 0;        while (*input >= '0' && *input <= '9') {            buffer[i++] = *input++;        }        buffer[i] = '\0';        *input_ptr = input;        Token t = {TOKEN_INTEGER, strdup(buffer), line};        return t;    }        // 处理字母（标识符或关键字）    if ((*input >= 'a' && *input <= 'z') ||        (*input >= 'A' && *input <= 'Z') || *input == '_') {        char buffer[100];        int i = 0;        while ((*input >= 'a' && *input <= 'z') ||               (*input >= 'A' && *input <= 'Z') ||               (*input >= '0' && *input <= '9') || *input == '_') {            buffer[i++] = *input++;        }        buffer[i] = '\0';        *input_ptr = input;                if (is_keyword(buffer)) {            Token t = {TOKEN_KEYWORD, strdup(buffer), line};            return t;        } else {            Token t = {TOKEN_IDENTIFIER, strdup(buffer), line};            return t;        }    }        // 处理运算符和分隔符（简化版）    switch (*input) {        case '=':            *input_ptr = input + 1;            return (Token){TOKEN_OPERATOR, strdup("="), line};        case '+':        case '-':        case '*':        case '/':            *input_ptr = input + 1;            char op[2] = {*input, '\0'};            return (Token){TOKEN_OPERATOR, strdup(op), line};        case ';':            *input_ptr = input + 1;            return (Token){TOKEN_SEPARATOR, strdup(";"), line};        case '(':        case ')':        case '{':        case '}':            *input_ptr = input + 1;            char sep[2] = {*input, '\0'};            return (Token){TOKEN_SEPARATOR, strdup(sep), line};        default:            // 非法字符            fprintf(stderr, "未知字符: %c at line %d\n", *input, line);            *input_ptr = input + 1;            return (Token){TOKEN_EOF, NULL, line};    }}

测试你的词法分析器

你可以用如下主函数测试：

#include <stdio.h>#include <stdlib.h>int main() {    const char* code = "int main() { int a = 10; return 0; }";    const char* ptr = code;        Token t;    do {        t = next_token(&ptr);        if (t.type != TOKEN_EOF && t.value) {            printf("[%s] %s\n",                 t.type == TOKEN_KEYWORD ? "KEYWORD" :                t.type == TOKEN_IDENTIFIER ? "IDENTIFIER" :                t.type == TOKEN_INTEGER ? "INTEGER" :                t.type == TOKEN_OPERATOR ? "OPERATOR" : "SEPARATOR",                t.value);        }    } while (t.type != TOKEN_EOF);        return 0;}