我已经解析了一个更大的数据集:我遇到了一个问题:解析数据集的结果 - (德语)。看一个例子 - 留下一个小东西:在德语中我们有特殊字符无法正确识别....请参阅以下几行 - 结果:
lfd. Nr. Schul- nummer Schulname Stra�e PLZ Ort Telefon Fax Schulart Webseite
1 0401 M�dchenrealschule Marienburg,�Abenberg, der Di�zese Eichst�tt Marienburg 1 91183� Abenberg� 09178/509210 Realschulen mrs-marienburg.homepage.t-online.de
2 6581 Volksschule Abenberg�(Grundschule) G�ss�belstr. 2 91183� Abenberg� 09178/215 09178/905060 Volksschulen home.t-online.de/home/vs-abenberg
3 6913 Mittelschule Abenberg� G�ss�belstr. 2 91183� Abenberg� 09178/215 09178/905060 Volksschulen home.t-online.de/home/vs-abenberg
4 0402 Johann-Turmair-Realschule�Staatliche Realschule Abensberg Stadionstra�e 46 93326� Abensberg� 09443/9143-0,12,13 09443/914330 Realschulen www.rs-abensberg.de
5 3041 Cabrini-Schule Offenstetten, Priv. F�rderzentrum�F�rderschwerp. geist.Entwickl. d. Kath.Jugendf�rs. Am Schmiedweiher 8 93326� Abensberg�Offenstetten 09443/9188-3 09443/918855 Volksschulen zur sonderp�dog. F�rderung www.cabrinischule.de
6 3074 Private Berufsschule zur sonderp�d. F�rderung,�F�rderschwerpunkt Lernen, Abensberg Regensburger Stra�e 60 93326� Abensberg� 09443/709191 09443/709193 Berufsschulen zur sonderp�dog. F�rderung www.berufsschule-abensberg.de
在以下几行中我添加了正确的字符,以粗体显示一些更正!
lfd. Nr. Schul- nummer Schulname **Straße** PLZ Ort Telefon Fax Schulart Webseite
1 0401 **Mädchenrealschule** Marienburg, Abenberg, der **Diözese** Eichstätt Marienburg 1 91183 Abenberg 09178/509210 Realschulen mrs-marienburg.homepage.t-online.de
2 6581 Volksschule Abenberg (Grundschule) **Güssübelstr**. 2 91183 Abenberg
以粗体显示一些更正....
那么我们如何重写正则表达式以解决特殊字符的问题......?
这里有任何暗示.......?
顺便看到代码:
sub processData() {
while ( $range <= $total_records) {
getstore("$url_to_process$suchbegriffe&a=$treffer&s=$range", 'processing.html') or die 'Unable to get page';
$te->parse_file('processing.html');
my ($table) = $te->tables;
for my $row ( $table->rows ) {
cleanup(@$row);
print OUTFILE "@$row\n";
}
$| = 1;
print "Processed records $range to $counter";
print "\r";
$counter = $counter + 50;
$range = $range + 50;
$te = HTML::TableExtract->new;
}
}
sub cleanup() {
for ( @_ ) {
s/\s+/ /g;
}
}
答案 0 :(得分:1)
这与正则表达式无关。问题是您有编码问题。将所有内容规范化为UTF-8,您将会更加快乐。
为了善良,不使用POSIX语言环境!使用UCA。
答案 1 :(得分:0)
问题不明确,因为除了cleanup()中的替换外,我的代码中没有正则表达式。这是你认为导致问题的原因吗?被破坏的“特殊”德语字符与\ s模式不匹配,我非常怀疑这是否是罪魁祸首。
您的数据以UTF-8编码 - 包括输入和输出。但是输出文本用EF BF BD代替各种双字节字符,Unicode U + FFFD或'REPLACEMENT CHARACTER'是UTF-8。只要您以UTF-8打开所有文件,一切都应该很好。我不相信你计划的一个简单的use encoding 'UTF8'
无法治愈。