我试图逐行有效地解析CSV文件而没有不必要的内存分配。
由于我们无法索引Rust中的字符串,我的想法是为每行拥有一行Vec<char>
行字符和几个&[char]
切片创建一个结构,表示其中的位置Vec
需要进一步处理的字段。
我只支持英语,所以不需要Unicode字形。
我抓住BufReader
中的每一行,将其收集到我的Vec<char>
中,然后迭代字符以注意每个字段切片的正确偏移量:
let mut r_line: String;
let mut char_count: usize;
let mut comma_count: usize;
let mut payload_start: usize;
for stored in &ms7_files {
let reader = BufReader::new(File::open(&stored.as_path()).unwrap());
for line in reader.lines() {
r_line = line.unwrap().to_string();
let r_chars: Vec<char> = r_line.chars().collect();
char_count = 0;
comma_count = 0;
payload_start = 0;
for chara in r_chars {
char_count += 1;
if chara == ',' {
comma_count += 1;
if comma_count == 1 {
let r_itemid = &r_chars[0..char_count - 1];
payload_start = char_count + 1;
} else if comma_count == 2 {
let r_date = &r_chars[payload_start..char_count - 1];
let r_payload = & r_chars[payload_start..r_line.len() - 1];
}
}
}
// Code omitted here to initialize a struct described in my
// text above and add it to a Vec for later processing
}
}
所有内容都在游动,直到if
内的代码在comma_count
上进行测试,我尝试在Vec
中创建char切片。当我尝试编译时,我得到了可怕的:
proc_sales.rs:87:23: 87:30 error: use of moved value: `r_chars` [E0382]
proc_sales.rs:87 let r_itemid = &r_chars[0..char_count - 1];
^~~~~~
proc_sales.rs:87:23: 87:30 help: run `rustc --explain E0382` to see a detailed explanation
proc_sales.rs:82:17: 82:24 note: `r_chars` moved here because it has type `collections::vec::Vec<char>`, which is non-copyable
proc_sales.rs:82 for chara in r_chars {
^~~~~~~
为每次创建切片的尝试。我基本上可以理解为什么编译器在抱怨。我想弄清楚的是收集和处理这些数据的更好策略,而无需进行大量的复制和克隆。哎呀,如果我可以保留String
拥有的原始BufReader
(对于每个文件行)而只是坚持切片,我会的!
随意评论修复上述代码以及针对此问题的替代方法的建议,以限制不必要的复制。
答案 0 :(得分:3)
BufReader::lines
返回一个生成Result<String>
项的迭代器。在此类项目上调用unwrap
时,它将始终分配一个新的String
(请注意,在line.unwrap().to_string()
中,to_string()
是多余的)。
如果您想最小化分配,可以使用BufReader::read_line
。
要拆分CSV行的字段,您可以使用str::split
。
以下是您的代码的简化版本:
use std::io::{BufRead, BufReader};
use std::fs::File;
fn main() {
let mut line = String::new();
let ms7_files = ["file1.cvs", "file2.cvs"];
for stored in &ms7_files {
let mut reader = BufReader::new(File::open(stored).unwrap());
while reader.read_line(&mut line).unwrap() > 0 {
// creates a scope to the iterator, so we can call line.clear()
{
// does not allocate
let mut it = line.split(',');
// item_id, date and payload are string slices, that is &str
let item_id = it.next().expect("no item_id fied");
let date = it.next().expect("no date field");
let payload = it.next().expect("no payload field");
// process fields
}
// sets len of line to 0, but does not deallocate
line.clear()
}
}
}
您可能还想查看various包装盒来处理CSV文件。
答案 1 :(得分:1)
对于您的问题,正如@Simon Whitehead所回答的那样,r_chars
的所有权已经转移到构建IntoIterator
,因此您无法使用它。
使用
修改代码for chara in &r_chars
// equivalent to
// for chara in r_chars.iter()
并且只要你想要(廉价)复制*chara
,就可以修复它。
对于@ malbarbo的回答,如果你的csv包含文本列(它本身可以包含换行符),我建议不要使用BufReader::lines
。
关注crates.io我建议您使用经过测试的战斗csv,或者您是否需要稍微提高一点的性能,但是已准备好接受较少测试的quick-csv。