当前位置：首页 > Rust > 正文

用Rust构建机器翻译系统（零基础入门Rust语言实现神经机器翻译）

主机测评网
Rust
2025-12-17
1064

在人工智能和自然语言处理领域，机器翻译一直是一个热门话题。而近年来，Rust语言凭借其内存安全、高性能和并发能力，逐渐成为系统级AI应用开发的新宠。本文将带你从零开始，使用Rust语言实现一个简单的神经机器翻译原型，即使你是编程小白，也能轻松上手！

用Rust构建机器翻译系统（零基础入门Rust语言实现神经机器翻译） Rust机器翻译 Rust语言教程神经机器翻译 Rust编程入门第1张

为什么选择 Rust 做机器翻译？

Rust 是一种系统编程语言，它在保证内存安全的同时不牺牲性能。对于需要处理大量文本数据的Rust机器翻译系统来说，Rust 的以下优势尤为突出：

无垃圾回收机制，运行效率高
编译时检查内存错误，避免运行时崩溃
强大的并发模型，适合处理大规模翻译任务
丰富的生态库（如 tch-rs、tokenizers）支持深度学习

准备工作：安装 Rust 和必要依赖

首先，确保你已安装 Rust。打开终端，运行以下命令：

curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh

接着，创建一个新的 Rust 项目：

cargo new rust_translation_democd rust_translation_demo

编辑 Cargo.toml 文件，添加必要的依赖：

[dependencies]tch = "0.12"          # PyTorch 的 Rust 绑定serde = { version = "1.0", features = ["derive"] }serde_json = "1.0"regex = "1.0"

步骤一：构建简单的词表映射

机器翻译的第一步是将文本转换为数字（即“词嵌入”）。我们先实现一个简易的词汇表（Vocabulary）结构：

use std::collections::HashMap;#[derive(Debug)]pub struct Vocabulary {    word_to_id: HashMap<String, usize>,    id_to_word: Vec<String>,}impl Vocabulary {    pub fn new() -> Self {        let mut vocab = Vocabulary {            word_to_id: HashMap::new(),            id_to_word: Vec::new(),        };        // 添加特殊标记        vocab.add_word("<pad>");        vocab.add_word("<sos>");        vocab.add_word("<eos>");        vocab.add_word("<unk>");        vocab    }    pub fn add_word(&mut self, word: &str) -> usize {        if !self.word_to_id.contains_key(word) {            let id = self.id_to_word.len();            self.word_to_id.insert(word.to_string(), id);            self.id_to_word.push(word.to_string());            id        } else {            *self.word_to_id.get(word).unwrap()        }    }    pub fn word_to_id(&self, word: &str) -> usize {        *self.word_to_id.get(word).unwrap_or(&3) // 3 is <unk>    }    pub fn id_to_word(&self, id: usize) -> &str {        if id < self.id_to_word.len() {            &self.id_to_word[id]        } else {            "<unk>"        }    }}

步骤二：构建编码器-解码器模型（简化版）

虽然完整的神经机器翻译模型（如 Transformer）较为复杂，但我们可以用 Rust + tch-rs 构建一个基于 LSTM 的简化版本。以下是模型定义的核心代码：

use tch::nn::{self, RNN};use tch::{Device, Kind, Tensor};pub struct Seq2Seq {    encoder: RNN,    decoder: RNN,    hidden_size: i64,    output_size: i64,}impl Seq2Seq {    pub fn new(vs: &nn::Path, input_size: i64, hidden_size: i64, output_size: i64) -> Self {        let encoder = nn::rnn(            vs / "encoder",            input_size,            hidden_size,            nn::RNNConfig {                mode: tch::Kind::LSTM,                ..Default::default()            },        );        let decoder = nn::rnn(            vs / "decoder",            hidden_size,            output_size,            nn::RNNConfig {                mode: tch::Kind::LSTM,                ..Default::default()            },        );        Seq2Seq {            encoder,            decoder,            hidden_size,            output_size,        }    }    pub fn forward(&self, input: &Tensor, target_len: i64) -> Tensor {        let (_output, hidden) = self.encoder.forward(&input, None, false);        let mut decoder_input = Tensor::zeros([1, self.hidden_size], (Kind::Float, Device::Cpu));        let mut outputs = Vec::new();        for _ in 0..target_len {            let (output, _) = self.decoder.forward(&decoder_input.unsqueeze(0), hidden.clone(), false);            outputs.push(output.squeeze());            decoder_input = output.squeeze();        }        Tensor::stack(&outputs, 0)    }}

步骤三：训练与推理（概念演示）

实际训练需要大量双语语料（如 WMT 数据集），但作为入门，我们可以模拟一个极小的数据集进行演示。完整训练流程涉及数据加载、损失计算、反向传播等，这里仅展示推理逻辑：

fn translate_sentence(    model: &Seq2Seq,    src_vocab: &Vocabulary,    tgt_vocab: &Vocabulary,    sentence: &str,) -> String {    let words: Vec<&str> = sentence.split_whitespace().collect();    let ids: Vec = words.iter().map(|w| src_vocab.word_to_id(w) as i64).collect();    let input_tensor = Tensor::from_slice(&ids).unsqueeze(1).to_kind(Kind::Float);    let output = model.forward(&input_tensor, 10); // 假设最大输出长度为10    let predicted_ids: Vec = output        .argmax(-1, false)        .int64_value(&[0])        .iter()        .map(|&x| x as usize)        .collect();    let translated: Vec = predicted_ids        .iter()        .map(|&id| tgt_vocab.id_to_word(id).to_string())        .collect();    translated.join(" ")}