找到&替换双引号之间的换行符

时间:2017-12-13 15:52:34

标签: javascript regex csv search-regex

我有一个CSV文件,其中包含值中的一些换行符。例如:

"Chiffre","Nom","Descriptif court","Tarifs en clair","Période en clair","Adresse 1","CP","Tel","Site","Facebook","Pictos","@Saveurs","@Famille plus","@Img","Accessible en fauteuil roulant en autonomie","Handicapes","Terrasse","Wifi","Chèque Vacances","Titre Restaurant"
6,"Le Chalet d'en Ô","Cuisine traditionnelle (foie gras, magret myrtilles, croustillant chocolat)
Spécialités savoyardes (fondue, tartiflette.. )
Garanti sans burgers.
Tout est fait maison.Cuisine traditionnelle (foie gras, magret myrtilles, croustillant chocolat)
Spécialités savoyardes (fondue, tartiflette.. )
Garanti sans burgers.
Tout est fait maison.","Menu adulte : de 20 à 30 €
Menu enfant : 10 €.

Suggestion du jour le midi en semaine : entrée,plat, dessert : 20€.Menu adulte : de 20 à 30 €
Menu enfant : 10 €.

Suggestion du jour le midi en semaine : entrée,plat, dessert : 20€.","Midi et soir du jeudi au samedi + midi le dimanche et jours fériés.
Juillet et août, midi et soir du mardi au samedi et midi uniquement dimanche et jours fériés.Midi et soir du jeudi au samedi + midi le dimanche et jours fériés.
Juillet et août, midi et soir du mardi au samedi et midi uniquement dimanche et jours fériés.","Le Cropt - Route de Serraval","74230 Les Clefs","+33 4 50 02 09 00","www.lechaletdeno.com",,"A R J X x",,,,,"A","R","J","X","x"
7,"La Cabane - Pisciculture de Montremont","Bar - restaurant au bord de la rivière dans un cadre champêtre avec sa spécialité la truite.","Menu adulte : de 26 à 35 €.","Juin et septembre : du mercredi au dimanche.
Juillet et août : tous les jours à midi + mercredi à samedi le soir.Juin et septembre : du mercredi au dimanche.
Juillet et août : tous les jours à midi + mercredi à samedi le soir.","Pisciculture de Montremont - 100 impasse des Pesetz","74230 Thônes","+33 4 50 02 00 85","pisciculture-montremont.fr",,"A R  X x",,,,,"A","R",,"X","x"

只需要用空格(或任何东西)替换任何换行符。

尝试了很多现有解决方案,但使用\\n作为搜索字词似乎不起作用,等等。

有什么想法吗?感谢。

Sublime Text就足够了,但如果另一个工具更容易,没问题。

修改:如果我只将此作为搜索字词,则\n正常工作。但我只需要在"之间找到它们。到目前为止,我得到的最好的是匹配"(?<=")[^"]*之间的所有文字。

2 个答案:

答案 0 :(得分:1)

您无法以安全的方式使用文本编辑器,因为起始和结束分隔符是相同的,任何基于环视的解决方案或基于\G的解决方案都无法正常工作。

使用一些支持回调方法/函数的编程语言作为正则表达式替换方法/函数中的替换参数,将任何双引号子字符串与

匹配
"[^"]*(?:""[^"]*)*"

请参阅regex demo。如果您不需要关心文字双引号,则简化版本为"[^"]+"

<强>详情

  • " - 双引号
  • [^"]* - 除双引号外的0 +字符
  • (?: - 重复0次以上的分组构造
    • "" - 2个双引号
    • [^"]* - 除双引号外的0 +字符
  • )* -
  • " - 双引号。

此正则表达式可以按如下方式使用:读入文件并使用以下解决方案:

  • re.sub(r'"[^"]*(?:""[^"]*)*"', lambda m: m.group(0).replace("\n", ""), s)
  • s = s.replace(/"[^"]*(?:""[^"]*)*"/g, function(m) { return m.replace(/\n/g, ''); })
  • $s = preg_replace_callback('~"[^"]*(?:""[^"]*)*"~', function($m) { return str_replace("\n", "", $m[0]); }, $s)
  • s = Regex.Replace(s, "\"[^\"]*(?:\"\"[^\"]*)*\"", m => m.Value.Replace("\n", ""))

如果要移除\r\n,则第二步,您可以在JS中使用.replace(/[\r\n]+/g, ''),在PHP中使用preg_replace('~\R+~', '', $m[0])m.Value.Replace("\r", "").Replace("\n","") Python中的C#和m.group(0).replace("\n", "").replace("\n", "")

在C#中,完整的解决方案看起来像

using System.IO;
...
var file = "path_to_file";
var path_to_save = "path_to_save";
var contents = string.Empty;
using (var sr = new StreamReader(file, true)) // true for a Unicode encoding
{
    contents = sr.ReadToEnd();
}
contents = Regex.Replace(contents, "\"[^\"]*(?:\"\"[^\"]*)*\"", 
    m => m.Value.Replace("\n", "").Replace("\r", ""));
using (var sw = new StreamWriter(path_to_save, false, Encoding.UTF8))
{
    sw.Write(contents);
    sw.Close();
}

答案 1 :(得分:0)

使用Notepad ++正则表达式查找和替换:

找到:

(,"[^"]*?)[\r\n]+

替换为:

$1 

($ 1后有一个空格)

反复点击“全部替换”,直到找不到更多匹配项。