Rust性能調優：從勸退到真香詳情 - 後端,rust,知識,觀點煩惱的沙發博客

地球人都説Rust快，安全，併發牛。但有時候我們寫出來的代碼，跑起來卻像踩了腳剎車。這是為啥？其實，Rust給你的法拉利，你可能只當成了買菜車在開。性能這玩意兒，不是玄學，而是科學（和一點點小技巧）。

BUT，在開始之前，誰也不想在配置環境這種破事上浪費生命，對吧？裝Rust、裝PostgreSQL、裝Redis……一套下來，半天沒了。這裏就要用 ServBay，這是開發者的福音，一鍵就能把Rust開發環境給搞定了，連帶各種數據庫都安排得明明白白。哥哥你放心飛，ServBay永相隨。

好了，環境搞定，繫好安全帶，我們發車！

技巧一：函數參數別老用`String`，`&str`才是萬金油

這可能是新手最容易犯的錯誤。看到字符串，下意識就用String。

別這麼幹：

// 每次調用這個函數，都可能發生一次內存拷貝，把所有權交出去
fn welcome_user(name: String) {
    println!("Hello, {}! 歡迎來到Rust的世界！", name);
}

fn main() {
    let user_name = "CodeWizard".to_string();
    // 為了不失去 user_name 的所有權，你不得不克隆它
    welcome_user(user_name.clone()); 
    println!("你的用户名是: {}", user_name); // 如果不clone，這裏就編譯不過了
}

試試這個：

// 使用 &str，我們只是借用了數據，不涉及所有權轉移
fn welcome_user(name: &str) {
    println!("Hello, {}! 歡迎來到Rust的世界！", name);
}

fn main() {
    let user_name = "CodeWizard".to_string();
    welcome_user(&user_name); // 輕鬆借用
    welcome_user("Newbie"); // 字符串字面量也完全沒問題
    println!("你的用户名是: {}", user_name); // user_name 還在，啥事沒有
}

為啥呢？ String是動態的、擁有所有權的字符串，把它作為參數傳遞，要麼所有權被移走（原來的變量不能再用），要麼你就得clone()一份，這可是實打實的內存分配和拷貝，開銷不小。而&str（字符串切片）只是一個“引用”，一個指向數據某部分的“指針+長度”組合，傳遞它就跟遞張名片一樣輕巧，不產生任何數據拷貝。

技巧二：數據共享？別傻傻地`clone()`，請用`Arc`

當多個線程或多個數據結構需要訪問同一份大數據時，比如一個共享的配置信息，無腦clone()會付出沉重的代價。

別這麼幹：

use std::thread;

#[derive(Clone)] // 為了能在線程間傳遞，不得不加上Clone
struct AppConfig {
    api_key: String,
    timeout: u32,
}

fn main() {
    let config = AppConfig {
        api_key: "a_very_long_and_secret_api_key".to_string(),
        timeout: 5000,
    };

    let mut handles = vec![];
    for i in 0..5 {
        let thread_config = config.clone(); // 每次都深度拷貝整個結構體
        handles.push(thread::spawn(move || {
            println!("線程 {} 使用的 API Key 是: {}", i, thread_config.api_key);
        }));
    }

    for handle in handles {
        handle.join().unwrap();
    }
}

試試這個：

use std::sync::Arc;
use std::thread;

struct AppConfig {
    api_key: String,
    timeout: u32,
}

fn main() {
    // Arc是“原子引用計數”智能指針，可以安全地在線程間共享數據
    let config = Arc::new(AppConfig {
        api_key: "a_very_long_and_secret_api_key".to_string(),
        timeout: 5000,
    });

    let mut handles = vec![];
    for i in 0..5 {
        let thread_config = Arc::clone(&config); // 這不是數據拷貝！只是增加引用計數，非常快
        handles.push(thread::spawn(move || {
            println!("線程 {} 使用的 API Key 是: {}", i, thread_config.api_key);
        }));
    }

    for handle in handles {
        handle.join().unwrap();
    }
}

為啥呢？ Arc::clone()做的不是複製數據本體，它只是把一個記錄“有多少人正在引用這份數據”的計數器加一。這個操作非常輕量，幾乎沒有成本。只有當最後一個引用消失時，數據才會被真正清理。面對多線程共享只讀數據的場景，Arc就是不二之選。

技巧三：迭代器大法好，告別C風格的索引循環

還在用for i in 0..vec.len()？那可就錯過了Rust編譯器給準備的免費午餐。

別這麼幹：

fn main() {
    let numbers = vec![1, 2, 3, 4, 5, 6];
    let mut sum_of_squares = 0;
    for i in 0..numbers.len() {
        // 每次訪問 numbers[i]，編譯器都會插入一個邊界檢查，以防你越界
        if numbers[i] % 2 == 0 {
            sum_of_squares += numbers[i] * numbers[i];
        }
    }
    println!("偶數的平方和是: {}", sum_of_squares);
}

試試這個：

fn main() {
    let numbers = vec![1, 2, 3, 4, 5, 6];
    // 迭代器是惰性的，並且鏈式調用會被編譯器優化成一個高效的循環
    let sum_of_squares: i32 = numbers
        .iter()                // 創建一個迭代器
        .filter(|&&n| n % 2 == 0) // 篩選出偶數
        .map(|&n| n * n)       // 計算平方
        .sum();                // 求和

    println!("偶數的平方和是: {}", sum_of_squares);
}

為啥呢？ Rust的迭代器是零成本抽象。寫的鏈式調用，在編譯後會被融合成一個手寫的、極其高效的循環，而且編譯器在編譯時就能確定訪問不會越界，從而去掉了運行時的邊界檢查。既安全，又高效，代碼還更清晰，何樂而不為？

技巧四：泛型優於動態分發（ `Box<dyn Trait>` ）

當代碼需要處理多種不同類型，但它們都實現了同一個Trait時，這時候會有兩種選擇：靜態分發（泛型）和動態分發（Trait對象）。在性能敏感的路徑上，請選擇前者。

別這麼幹（動態分發）：

trait Sound {
    fn make_sound(&self) -> String;
}

struct Dog;
impl Sound for Dog {
    fn make_sound(&self) -> String { "汪汪!".to_string() }
}

struct Cat;
impl Sound for Cat {
    fn make_sound(&self) -> String { "喵~".to_string() }
}

// 使用Box<dyn Trait>，運行時需要通過虛函數表(vtable)查找具體調用哪個方法
fn trigger_sound(animal: Box<dyn Sound>) {
    println!("{}", animal.make_sound());
}

fn main() {
    trigger_sound(Box::new(Dog));
    trigger_sound(Box::new(Cat));
}

試試這個（靜態分發）：

trait Sound {
    fn make_sound(&self) -> String;
}

struct Dog;
impl Sound for Dog {
    fn make_sound(&self) -> String { "汪汪!".to_string() }
}

struct Cat;
impl Sound for Cat {
    fn make_sound(&self) -> String { "喵~".to_string() }
}

// 使用泛型，編譯器會為每種類型生成一個專門的版本，沒有運行時開銷
fn trigger_sound<T: Sound>(animal: T) {
    println!("{}", animal.make_sound());
}

fn main() {
    trigger_sound(Dog);
    trigger_sound(Cat);
}

為啥呢？ 動態分發Box<dyn Trait>需要在運行時查找一個叫做“虛表”的東西來確定到底該調用哪個具體實現的方法，這會帶來額外的指針間接引用和查找開銷。而泛型，編譯器在編譯時就知道要用Dog還是Cat，它會直接生成兩個不同版本的trigger_sound函數，一個給Dog，一個給Cat，調用時直接就是函數地址，沒有任何運行時開銷。這種技術也叫單態化。

技巧五：給小函數戴上`#[inline]`的帽子

對於那些又小又被頻繁調用的函數，函數調用本身的開銷（比如建立棧幀）可能比函數體執行的開銷還大。

// 這是一個非常小的輔助函數
#[inline]
fn is_positive(n: i32) -> bool {
    n > 0
}

fn count_positives(numbers: &[i32]) -> usize {
    numbers.iter().filter(|&&n| is_positive(n)).count()
}

fn main() {
    let data = vec![-1, 1, -2, 2, 3];
    println!("正數的個數: {}", count_positives(&data));
}

為啥呢？ #[inline]像是一個給編譯器的建議，告訴它：“哥們，把這個函數的代碼直接複製粘貼到調用它的地方吧，別走函數調用流程了。” 這樣就消除了函數調用的開銷。當然，別濫用，給一個巨大的函數加上#[inline]只會讓最終程序體積膨脹，得不償失。

技巧六：棧上分配永遠比堆上快

能放在棧上的數據，就別往堆上扔。棧分配就是移動一下棧指針，快如閃電；堆分配則需要去倉庫（堆）裏找一塊合適的空地，要慢得多。

別這麼幹：

struct Point {
    x: f64,
    y: f64,
}

fn main() {
    // Box::new會把數據分配在堆上
    let p1 = Box::new(Point { x: 1.0, y: 2.0 });
    println!("堆上的點: ({}, {})", p1.x, p1.y);
}

試試這個：

struct Point {
    x: f64,
    y: f64,
}

fn main() {
    // 默認情況下，變量是分配在棧上的
    let p1 = Point { x: 1.0, y: 2.0 };
    println!("棧上的點: ({}, {})", p1.x, p1.y);
}

這個技巧看起來非常簡單，但其核心是當不需要在函數返回後數據仍然存活，或者數據大小在編譯期就確定時，優先使用棧。Box、String、Vec這類都是在堆上分配的，使用時要心裏有數。

技巧七： `MaybeUninit` ：大內存初始化時開掛了

如果需要一塊非常大的內存，並且確定馬上會用自己的數據把它填滿時，讓Rust先用0初始化一遍的話，純屬浪費CPU。

這是一個高級技巧，需要使用unsafe，新手慎用！

use std::mem::MaybeUninit;

const BUFFER_SIZE: usize = 1024 * 1024; // 1MB

fn main() {
    // 創建一個Vec，但告訴Rust：“先別初始化這塊內存，我待會兒自己弄”
    let mut buffer: Vec<MaybeUninit<u8>> = Vec::with_capacity(BUFFER_SIZE);

    // 假設我們從某個地方讀取數據填滿了這塊緩衝區
    // 這裏我們用一個簡單的循環模擬
    // 注意：在真實場景中，你會用類似 read_exact 的方法填充
    unsafe {
        // 偽裝成已經初始化了，因為我們確信下面的代碼會完成初始化
        buffer.set_len(BUFFER_SIZE); 
        for i in 0..BUFFER_SIZE {
            // get_mut_unchecked是`unsafe`的，但我們知道索引是合法的
            *buffer.get_mut_unchecked(i) = MaybeUninit::new((i % 256) as u8);
        }
    }

    // 現在，我們確信內存已經完全初始化，可以安全地把它轉換成 Vec<u8>
    let buffer: Vec<u8> = unsafe {
        // 這步轉換是零成本的，因為內存佈局完全一樣
        std::mem::transmute(buffer)
    };

    println!("緩衝區創建並填充完畢，第一個元素是: {}", buffer[0]);
    println!("最後一個元素是: {}", buffer[BUFFER_SIZE - 1]);
}

為啥呢？ Vec::with_capacity只分配內存，不初始化。但如果你接着用resize或者其他安全的方法，它還是會幫你初始化。MaybeUninit允許你跳過這個默認的初始化步驟，直接操作未初始化的內存，對於高性能網絡編程、數據解析等場景，能省下可觀的時間。但記住，unsafe意味着你得自己對內存安全負責！

總結一下

Rust性能調優的核心思想無非幾點：

減少內存 分配和拷貝：多用借用（&），善用智能指針（Arc）。
讓編譯器幫你幹活：多用迭代器，多用泛型。
理解內存佈局：區分棧和堆，知道什麼時候該用誰。

當然，優化要講究章法，不要上來就對着貼臉代碼開大。先用性能分析工具（比如cargo-flamegraph）找到問題在哪，再對症下藥。

最後，別忘了，一個順手的開發環境是高效工作的開始。ServBay 搞定繁瑣的配置，開發者就能把全部精力投入到編寫優雅且高性能的Rust代碼中。現在，去把你的買菜車調教成一輛真正的法拉利吧！

煩惱的沙發博客

煩惱的沙發博客

博客 / 詳情