在我的C#应用程序中,我使用Microsoft Jet OLEDB数据提供程序来读取CSV文件。连接字符串如下所示:
Provider=Microsoft.Jet.OLEDB.4.0;Data Source=c:\Data;Extended Properties="text;HDR=Yes;FMT=Delimited
我使用该连接字符串打开ADO.NET OleDbConnection,并使用以下命令从CSV文件中选择所有行:
select * from Data.csv
当我打开OleDbDataReader并检查它返回的列的数据类型时,我发现堆栈中的某些东西试图根据文件中的第一行数据猜测数据类型。例如,假设CSV文件包含:
House,Street,Town
123,Fake Street,Springfield
12a,Evergreen Terrace,Springfield
调用House列的OleDbDataReader.GetDataTypeName方法将显示该列已被赋予数据类型“DBTYPE_I4”,因此从中读取的所有值都将被解释为整数。我的问题是House应该是一个字符串 - 当我尝试从第二行读取House值时,OleDbDataReader返回null。
如何判断Jet数据库提供程序或OleDbDataReader是否将列解释为字符串而不是数字?
答案 0 :(得分:11)
为了扩展Marc的答案,我需要创建一个名为Schema.ini的文本文件,并将其放在与CSV文件相同的目录中。除列类型外,此文件还可以指定文件格式,日期时间格式,区域设置以及列名称(如果它们未包含在文件中)。
为了使我在问题工作中给出的示例,Schema文件应该如下所示:
[Data.csv]
ColNameHeader=True
Col1=House Text
Col2=Street Text
Col3=Town Text
我也可以尝试这个让数据提供者在尝试猜测数据类型之前检查文件中的所有行:
[Data.csv]
ColNameHeader=true
MaxScanRows=0
在现实生活中,我的应用程序从具有动态名称的文件导入数据,因此我必须动态创建Schema.ini文件,并在打开连接之前将其写入与CSV文件相同的目录。
可以在此处找到更多详细信息 - http://msdn.microsoft.com/en-us/library/ms709353(VS.85).aspx - 或者在MSDN Library中搜索“Schema.ini文件”。
答案 1 :(得分:9)
您可以创建一个模式文件,告诉ADO.NET如何解释CSV - 实际上是为了给它一个结构。
试试这个:http://www.aspdotnetcodes.com/Importing_CSV_Database_Schema.ini.aspx
答案 2 :(得分:5)
请检查
using (var reader = new CsvReader("data.csv"))
{
reader.ReadHeaderRecord();
foreach (var record in reader.DataRecords)
{
var name = record["Name"];
var age = record["Age"];
}
}
答案 3 :(得分:0)
您需要告诉驱动程序扫描所有行以确定架构。否则,如果前几行是数字,其余行是字母数字,则字母数字单元格将为空白。
与Rory一样,我发现我需要动态创建一个schema.ini文件,因为没有办法以编程方式告诉驱动程序扫描所有行。 (对于excel文件不是这种情况)
您的schema.ini
中必须有MaxScanRows=0
这是一个代码示例:
public static DataTable GetDataFromCsvFile(string filePath, bool isFirstRowHeader = true)
{
if (!File.Exists(filePath))
{
throw new FileNotFoundException("The path: " + filePath + " doesn't exist!");
}
if (!(Path.GetExtension(filePath) ?? string.Empty).ToUpper().Equals(".CSV"))
{
throw new ArgumentException("Only CSV files are supported");
}
var pathOnly = Path.GetDirectoryName(filePath);
var filename = Path.GetFileName(filePath);
var schemaIni =
$"[{filename}]{Environment.NewLine}" +
$"Format=CSVDelimited{Environment.NewLine}" +
$"ColNameHeader={(isFirstRowHeader ? "True" : "False")}{Environment.NewLine}" +
$"MaxScanRows=0{Environment.NewLine}" +
$" ; scan all rows for data type{Environment.NewLine}" +
$" ; This file was automatically generated";
var schemaFile = pathOnly != null ? Path.Combine(pathOnly, "schema.ini") : "schema.ini";
File.WriteAllText(schemaFile, schemaIni);
try
{
var sqlCommand = $@"SELECT * FROM [{filename}]";
var oleDbConnString =
$"Provider=Microsoft.Jet.OLEDB.4.0;Data Source={pathOnly};Extended Properties=\"Text;HDR={(isFirstRowHeader ? "Yes" : "No")}\"";
using (var oleDbConnection = new OleDbConnection(oleDbConnString))
using (var adapter = new OleDbDataAdapter(sqlCommand, oleDbConnection))
using (var dataTable = new DataTable())
{
adapter.FillSchema(dataTable, SchemaType.Source);
adapter.Fill(dataTable);
return dataTable;
}
}
finally
{
if (File.Exists(schemaFile))
{
File.Delete(schemaFile);
}
}
}
如果您同时在多个线程中的同一目录上运行此操作,则需要进行一些修改。