当前位置：首页 > C++ > 正文

手把手教你实现C++语言词法分析器（从零开始构建C++编译器的第一步）

主机测评网
C++
2025-12-13
716

在C++编译器开发的过程中，词法分析器（Lexer）是整个编译流程的第一步。它负责将源代码字符串分解成一个个有意义的“词法单元”（Token），比如关键字、标识符、数字、运算符等。本教程将带你从零开始，用C++实现一个简单的C++词法分析器，即使你是编程小白也能轻松上手！

手把手教你实现C++语言词法分析器（从零开始构建C++编译器的第一步） C++词法分析器 C++编译器开发词法分析实现 C++编程教程第1张

什么是词法分析器？

词法分析器（也叫扫描器或Tokenizer）读取源代码字符流，并将其转换为一系列Token。例如，对于以下C++代码：

int main() {    return 0;}

词法分析器会输出类似这样的Token序列：

KEYWORD: int
IDENTIFIER: main
SYMBOL: (
SYMBOL: )
SYMBOL: {
KEYWORD: return
NUMBER: 0
SYMBOL: ;
SYMBOL: }

实现步骤概览

我们将按以下步骤实现一个基础的C++词法分析器：

定义Token类型
设计Lexer类结构
实现跳过空白字符和注释的功能
识别关键字、标识符、数字、符号等
测试我们的词法分析器

第一步：定义Token类型

我们先用枚举定义支持的Token类型：

enum class TokenType {    KEYWORD,    IDENTIFIER,    NUMBER,    SYMBOL,    END_OF_FILE};struct Token {    TokenType type;    std::string value;    int line;    Token(TokenType t, const std::string& v, int l)        : type(t), value(v), line(l) {}};

第二步：构建Lexer类

接下来我们创建一个Lexer类，用于处理输入字符串并生成Token流。

#include <iostream>#include <string>#include <unordered_set>#include <vector>class Lexer {private:    std::string source;    size_t pos;    int currentLine;    std::unordered_set<std::string> keywords = {        "int", "return", "if", "else", "while", "for"    };public:    Lexer(const std::string& src) : source(src), pos(0), currentLine(1) {}    char peek() {        if (pos >= source.length()) return '\0';        return source[pos];    }    char advance() {        if (pos >= source.length()) return '\0';        char ch = source[pos++];        if (ch == '\n') currentLine++;        return ch;    }    void skipWhitespace() {        while (peek() == ' ' || peek() == '\t' || peek() == '\n' || peek() == '\r') {            advance();        }    }    Token nextToken();};

第三步：实现nextToken函数

这是词法分析的核心函数，负责识别不同类型的Token：

Token Lexer::nextToken() {    skipWhitespace();    if (pos >= source.length()) {        return Token(TokenType::END_OF_FILE, "", currentLine);    }    char ch = peek();    // 处理标识符或关键字    if (isalpha(ch) || ch == '_') {        std::string ident = "";        while (isalnum(peek()) || peek() == '_') {            ident += advance();        }        if (keywords.count(ident)) {            return Token(TokenType::KEYWORD, ident, currentLine);        } else {            return Token(TokenType::IDENTIFIER, ident, currentLine);        }    }    // 处理数字    if (isdigit(ch)) {        std::string num = "";        while (isdigit(peek())) {            num += advance();        }        return Token(TokenType::NUMBER, num, currentLine);    }    // 处理单字符符号    std::string symbols = "+-*/=;{}()[]<>!&|";    if (symbols.find(ch) != std::string::npos) {        advance();        return Token(TokenType::SYMBOL, std::string(1, ch), currentLine);    }    // 跳过未知字符（实际项目中应报错）    advance();    return nextToken(); // 递归跳过}

第四步：测试词法分析器

现在我们可以写一个简单的main函数来测试我们的词法分析实现：

int main() {    std::string code = R"(        int main() {            return 42;        }    )";    Lexer lexer(code);    Token token = lexer.nextToken();    while (token.type != TokenType::END_OF_FILE) {        std::cout << "Type: " << static_cast<int>(token.type)                  << ", Value: '" << token.value                  << "', Line: " << token.line << std::endl;        token = lexer.nextToken();    }    return 0;}