目标:
将带有UTF-8字符的CSV文件上传/发布到MVC操作,读取数据并将其粘贴到数据库表中。
问题:
只有纯文本字符才能通过。像á这样的UTF-8“特殊”字符没有正确传递,在代码和数据库中它们呈现为此字符=>
更多:
我确信这不是我的C#代码的问题,尽管我已经包含了以下重要部分。
我认为问题在于上传的文件是以纯文本或“普通/文本”MIME类型编码的,但我可以通过将文件扩展名更改为.html来更改它。
要点:
如何将enctype属性设置为“multipart / form-data”的表单正确解释已发布文件中的UTF-8字符?
研究:
从我的研究来看,如果没有一个共同而明确的解决方案,这似乎是一个普遍的问题。
我发现了比.Net更多的java和PHP解决方案。
csvFile变量的类型为HttpPostedFileBase
这是MVC动作签名
[HttpPost]
public ActionResult LoadFromCsv(HttpPostedFileBase csvFile)
我尝试过的事情:
1)
using (Stream inputStream = csvFile.InputStream)
{
byte[] bytes = ReadFully(inputStream);
string bytesConverted = new UTF8Encoding().GetString(bytes);
}
2)
using (Stream inputStream = csvFile.InputStream)
{
using (StreamReader readStream = new StreamReader(inputStream, Encoding.UTF8, true))
{
while (!readStream.EndOfStream)
{
string csvLine = readStream.ReadLine();
// string csvLine = new UTF8Encoding().GetString(new UTF8Encoding().GetBytes(readStream.ReadLine())); // stupid... this can not be the way!
}
}
}
3)
<form method="post" enctype="multipart/form-data" accept-charset="UTF-8">
4)
<input type="file" id="csvFile" name="csvFile" accept="UTF-8" />
<input type="file" id="csvFile" name="csvFile" accept="text/html" />
5)
当文件的扩展名为.txt时,HttpPostedFileBase的ContentType属性为“text / plain”
当我将文件扩展名从.txt更改为.csv时,HttpPostedFileBase的ContentType属性为“application / vnd.ms-excel”
当我将文件扩展名更改为.html时,HttpPostedFileBase的ContentType属性为“text / html” - 我认为这将成为赢家,但事实并非如此。
在我的灵魂中,我必须相信这个问题有一个简单的解决方案。让我感到惊讶的是,我无法自己解决这个问题,在文件中上传UTF-8字符是一项常见任务!我为什么在这里失败?!?!
也许我必须在IIS中为网站调整mime类型?
也许我需要不同的DOCTYPE / html标签/元标签?
@Gabe -
以下是我的帖子在小提琴中的样子。这真的很有趣,因为 显然是白天,就在后期价值中。
http://localhost/AwesomeGeography/GeoBytesCities/LoadFromCsv?adsf HTTP/1.1
Host: localhost
User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64; rv:12.0) Gecko/20100101 Firefox/12.0
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: en-us,en;q=0.5
Accept-Encoding: gzip, deflate
Connection: keep-alive
Referer: http://localhost/AwesomeGeography/GeoBytesCities/LoadFromCsv?adsf
Content-Type: multipart/form-data; boundary=---------------------------199122566726299
Content-Length: 354
-----------------------------199122566726299
Content-Disposition: form-data; name="csvFile"; filename="cities_test.html"
Content-Type: text/html
"CityId","CountryID","RegionID","City","Latitude","Longitude","TimeZone","DmaId","Code"
3344,10,1063,"Luj�n de Cuyo","-33.05","-68.867","-03:00",0,"LDCU"
-----------------------------199122566726299--
答案 0 :(得分:2)
根据给出的信息,我猜测问题在于文件编码本身 - 而不是您的代码。
我做了一个简单的测试来证明这一点:
我从Excel中导出了一个包含特殊字符的简单csv文件。
然后,我通过以下表单和操作方法上传了它。
表格
<form method="post" action="@Url.Action("UploadFile", "Home")" enctype="multipart/form-data">
<input type="file" id="file" name="file" />
<input type="submit" />
</form>
行动方法
[HttpPost]
public ActionResult UploadFile(HttpPostedFileBase file)
{
using (StreamReader reader = new StreamReader(file.InputStream, System.Text.Encoding.UTF8))
{
string text = reader.ReadToEnd();
}
return RedirectToAction("Index");
}
在这种情况下,我遇到了与你相同的问题 - 特殊字符被替换为 。
我在记事本中打开了文件并且在那里正确显示了特殊字符,所以它似乎不是文件问题,但是当我打开“另存为”对话框时,所选的编码是“ANSI”。我将它切换为UTF-8并保存,通过上传程序运行,一切正常。
答案 1 :(得分:2)
我有同样的问题,你可以使用
StreamReader reader = new StreamReader(archivo_origen.InputStream,Encoding.GetEncoding(“iso-8859-1”));
并且它有效,“iso-8859-1”适用于拉丁语派生语言,如西班牙语,aleman,法国