如何在Rust中迭代Vec而不复制时分配切片?

时间:2016-05-18 04:17:09

标签: csv rust slice allocation text-parsing

我试图逐行有效地解析CSV文件而没有不必要的内存分配。

由于我们无法索引Rust中的字符串,我的想法是为每行拥有一行Vec<char>行字符和几个&[char]切片创建一个结构,表示其中的位置Vec需要进一步处理的字段。

我只支持英语,所以不需要Unicode字形。

我抓住BufReader中的每一行,将其收集到我的Vec<char>中,然后迭代字符以注意每个字段切片的正确偏移量:

let mut r_line: String;
let mut char_count: usize;
let mut comma_count: usize;
let mut payload_start: usize;
for stored in &ms7_files {
    let reader = BufReader::new(File::open(&stored.as_path()).unwrap());
    for line in reader.lines() {
        r_line = line.unwrap().to_string();
        let r_chars: Vec<char> = r_line.chars().collect();
        char_count = 0;
        comma_count = 0;
        payload_start = 0;
        for chara in r_chars {
            char_count += 1;
            if chara == ',' {
                comma_count += 1;
                if comma_count == 1 {
                    let r_itemid = &r_chars[0..char_count - 1];
                    payload_start = char_count + 1;
                } else if comma_count == 2 {
                    let r_date = &r_chars[payload_start..char_count - 1];
                    let r_payload = & r_chars[payload_start..r_line.len() - 1];
                }
            }
        }
        // Code omitted here to initialize a struct described in my
        // text above and add it to a Vec for later processing
    }
}

所有内容都在游动,直到if内的代码在comma_count上进行测试,我尝试在Vec中创建char切片。当我尝试编译时,我得到了可怕的:

proc_sales.rs:87:23: 87:30 error: use of moved value: `r_chars` [E0382]
proc_sales.rs:87                        let r_itemid = &r_chars[0..char_count - 1];
                                                        ^~~~~~
proc_sales.rs:87:23: 87:30 help: run `rustc --explain E0382` to see a detailed explanation
proc_sales.rs:82:17: 82:24 note: `r_chars` moved here because it has type `collections::vec::Vec<char>`, which is non-copyable
proc_sales.rs:82            for chara in r_chars {
                                     ^~~~~~~

为每次创建切片的尝试。我基本上可以理解为什么编译器在抱怨。我想弄清楚的是收集和处理这些数据的更好策略,而无需进行大量的复制和克隆。哎呀,如果我可以保留String拥有的原始BufReader(对于每个文件行)而只是坚持切片,我会的!

随意评论修复上述代码以及针对此问题的替代方法的建议,以限制不必要的复制。

2 个答案:

答案 0 :(得分:3)

BufReader::lines返回一个生成Result<String>项的迭代器。在此类项目上调用unwrap时,它将始终分配一个新的String(请注意,在line.unwrap().to_string()中,to_string()是多余的)。

如果您想最小化分配,可以使用BufReader::read_line

要拆分CSV行的字段,您可以使用str::split

以下是您的代码的简化版本:

use std::io::{BufRead, BufReader};
use std::fs::File;

fn main() {
    let mut line = String::new();
    let ms7_files = ["file1.cvs", "file2.cvs"];
    for stored in &ms7_files {
        let mut reader = BufReader::new(File::open(stored).unwrap());
        while reader.read_line(&mut line).unwrap() > 0 {
            // creates a scope to the iterator, so we can call line.clear()
            {
                // does not allocate
                let mut it = line.split(',');
                // item_id, date and payload are string slices, that is &str
                let item_id = it.next().expect("no item_id fied");
                let date = it.next().expect("no date field");
                let payload = it.next().expect("no payload field");
                // process fields
            }
            // sets len of line to 0, but does not deallocate
            line.clear()
        }
    }
}

您可能还想查看various包装盒来处理CSV文件。

答案 1 :(得分:1)

对于您的问题,正如@Simon Whitehead所回答的那样,r_chars的所有权已经转移到构建IntoIterator,因此您无法使用它。

使用

修改代码
for chara in &r_chars
// equivalent to
// for chara in r_chars.iter()

并且只要你想要(廉价)复制*chara,就可以修复它。

对于@ malbarbo的回答,如果你的csv包含文本列(它本身可以包含换行符),我建议不要使用BufReader::lines

关注crates.io我建议您使用经过测试的战斗csv,或者您是否需要稍微提高一点的性能,但是已准备好接受较少测试的quick-csv