我有一个CSV文件,其中包含值中的一些换行符。例如:
"Chiffre","Nom","Descriptif court","Tarifs en clair","Période en clair","Adresse 1","CP","Tel","Site","Facebook","Pictos","@Saveurs","@Famille plus","@Img","Accessible en fauteuil roulant en autonomie","Handicapes","Terrasse","Wifi","Chèque Vacances","Titre Restaurant"
6,"Le Chalet d'en Ô","Cuisine traditionnelle (foie gras, magret myrtilles, croustillant chocolat)
Spécialités savoyardes (fondue, tartiflette.. )
Garanti sans burgers.
Tout est fait maison.Cuisine traditionnelle (foie gras, magret myrtilles, croustillant chocolat)
Spécialités savoyardes (fondue, tartiflette.. )
Garanti sans burgers.
Tout est fait maison.","Menu adulte : de 20 à 30 €
Menu enfant : 10 €.
Suggestion du jour le midi en semaine : entrée,plat, dessert : 20€.Menu adulte : de 20 à 30 €
Menu enfant : 10 €.
Suggestion du jour le midi en semaine : entrée,plat, dessert : 20€.","Midi et soir du jeudi au samedi + midi le dimanche et jours fériés.
Juillet et août, midi et soir du mardi au samedi et midi uniquement dimanche et jours fériés.Midi et soir du jeudi au samedi + midi le dimanche et jours fériés.
Juillet et août, midi et soir du mardi au samedi et midi uniquement dimanche et jours fériés.","Le Cropt - Route de Serraval","74230 Les Clefs","+33 4 50 02 09 00","www.lechaletdeno.com",,"A R J X x",,,,,"A","R","J","X","x"
7,"La Cabane - Pisciculture de Montremont","Bar - restaurant au bord de la rivière dans un cadre champêtre avec sa spécialité la truite.","Menu adulte : de 26 à 35 €.","Juin et septembre : du mercredi au dimanche.
Juillet et août : tous les jours à midi + mercredi à samedi le soir.Juin et septembre : du mercredi au dimanche.
Juillet et août : tous les jours à midi + mercredi à samedi le soir.","Pisciculture de Montremont - 100 impasse des Pesetz","74230 Thônes","+33 4 50 02 00 85","pisciculture-montremont.fr",,"A R X x",,,,,"A","R",,"X","x"
只需要用空格(或任何东西)替换任何换行符。
尝试了很多现有解决方案,但使用\\n
作为搜索字词似乎不起作用,等等。
有什么想法吗?感谢。
Sublime Text就足够了,但如果另一个工具更容易,没问题。
修改:如果我只将此作为搜索字词,则\n
正常工作。但我只需要在"
之间找到它们。到目前为止,我得到的最好的是匹配"
与(?<=")[^"]*
之间的所有文字。
答案 0 :(得分:1)
您无法以安全的方式使用文本编辑器,因为起始和结束分隔符是相同的,任何基于环视的解决方案或基于\G
的解决方案都无法正常工作。
使用一些支持回调方法/函数的编程语言作为正则表达式替换方法/函数中的替换参数,将任何双引号子字符串与
匹配"[^"]*(?:""[^"]*)*"
请参阅regex demo。如果您不需要关心文字双引号,则简化版本为"[^"]+"
。
<强>详情
"
- 双引号[^"]*
- 除双引号外的0 +字符(?:
- 重复0次以上的分组构造
""
- 2个双引号[^"]*
- 除双引号外的0 +字符)*
- "
- 双引号。此正则表达式可以按如下方式使用:读入文件并使用以下解决方案:
re.sub(r'"[^"]*(?:""[^"]*)*"', lambda m: m.group(0).replace("\n", ""), s)
s = s.replace(/"[^"]*(?:""[^"]*)*"/g, function(m) { return m.replace(/\n/g, ''); })
$s = preg_replace_callback('~"[^"]*(?:""[^"]*)*"~', function($m) { return str_replace("\n", "", $m[0]); }, $s)
s = Regex.Replace(s, "\"[^\"]*(?:\"\"[^\"]*)*\"", m => m.Value.Replace("\n", ""))
如果要移除\r
和\n
,则第二步,您可以在JS中使用.replace(/[\r\n]+/g, '')
,在PHP中使用preg_replace('~\R+~', '', $m[0])
,m.Value.Replace("\r", "").Replace("\n","")
Python中的C#和m.group(0).replace("\n", "").replace("\n", "")
。
在C#中,完整的解决方案看起来像
using System.IO;
...
var file = "path_to_file";
var path_to_save = "path_to_save";
var contents = string.Empty;
using (var sr = new StreamReader(file, true)) // true for a Unicode encoding
{
contents = sr.ReadToEnd();
}
contents = Regex.Replace(contents, "\"[^\"]*(?:\"\"[^\"]*)*\"",
m => m.Value.Replace("\n", "").Replace("\r", ""));
using (var sw = new StreamWriter(path_to_save, false, Encoding.UTF8))
{
sw.Write(contents);
sw.Close();
}
答案 1 :(得分:0)
使用Notepad ++正则表达式查找和替换:
找到:
(,"[^"]*?)[\r\n]+
替换为:
$1
($ 1后有一个空格)
反复点击“全部替换”,直到找不到更多匹配项。