当前位置：首页 > Python > 正文

深入理解Python词法分析（小白也能看懂的Python语法解析入门教程）

主机测评网
Python
2025-12-18
527

在学习编程语言的过程中，你是否曾好奇：Python是如何“读懂”我们写的代码的？这一切的起点，就是词法分析（Lexical Analysis）。本文将带你从零开始，用通俗易懂的方式讲解Python词法分析的基本原理，并通过简单示例帮助你理解这一核心概念。无论你是编程新手还是有一定经验的开发者，都能轻松掌握！

深入理解Python词法分析（小白也能看懂的Python语法解析入门教程） Python词法分析 Python语法解析 Python编译原理 Python源码分析第1张

什么是词法分析？

词法分析是编译器或解释器处理源代码的第一步。它的任务是将一串字符（即你的Python代码）拆分成一个个有意义的“单词”，这些“单词”在编程语言中被称为词法单元（Token）。

例如，对于下面这行简单的Python代码：

x = 10 + 5

词法分析器会将其分解为以下Token序列：

NAME('x') —— 变量名
OP('=') —— 赋值操作符
NUMBER('10') —— 数字字面量
OP('+') —— 加法操作符
NUMBER('5') —— 数字字面量

Python中的词法分析工具：tokenize模块

Python标准库提供了一个名为 tokenize 的模块，它可以帮助我们查看任意Python代码的词法分析结果。这是学习Python语法解析和Python编译原理的绝佳工具。

下面是一个使用 tokenize 模块分析代码的完整示例：

import tokenizeimport io# 要分析的Python代码code = '''x = 10 + 5print("Hello, world!")'''# 将字符串转换为类似文件的对象stream = io.BytesIO(code.encode('utf-8'))# 使用tokenize.tokenize进行词法分析for token in tokenize.tokenize(stream.readline):    print(f"{token.type:2} ({tokenize.tok_name[token.type]:12}) : '{token.string}'")

运行上述代码后，你会看到类似如下的输出：

 1 (ENCODING     ) : 'utf-8' 1 (NAME         ) : 'x'54 (OP           ) : '=' 2 (NUMBER       ) : '10'54 (OP           ) : '+' 2 (NUMBER       ) : '5' 4 (NEWLINE      ) : '\n' 1 (NAME         ) : 'print'54 (OP           ) : '(' 3 (STRING       ) : '"Hello, world!"'54 (OP           ) : ')' 4 (NEWLINE      ) : '\n' 0 (ENDMARKER    ) : ''

每个Token都包含类型（type）、名称（tok_name）和实际字符串内容（string）。通过这种方式，我们可以清晰地看到Python如何一步步将源码分解为基本单元。