我想从一个网站解析所有城市(似乎是编码<meta charset="iso-8859-15" />
)。然后我想将它们导出为CSV文件,以便将它们放在Excel(Office for Mac 2016)中。我在PHP脚本中使用Simple HTML DOM Parser。
首先,我使用Windows在PC上编写了一个PHP脚本。 CSV文件正常,Excel正确识别它(Windows(ANSI)格式)。这里没问题。
然而,这是我想在Windows和Mac上使用的脚本。当我在Mac上测试它时,里面有很多特殊字符。这是我得到的城市的一个例子:
Paris 15ème Brétigny-sur-Orge Paris 19ème Paris 5ème Argenteuil Saint-Mandé
我不明白为什么'è'(è
)是HTML格式,而'é'格式很好。
以下是我收集城市的方式:
$place = str_replace(' ','',$lbc->find('div[class="placement"]',0)->plaintext);
要删除此编码问题,我尝试使用html_entity_decode,如下所示:
$place = str_replace('','',html_entity_decode($lbc->find('div[class="placement"]',0)->plaintext));
这使'è','ê',然后'é'字符的作品不再存在,它们变成了?
。
我不知道如何处理这一切。
其他问题,当我尝试在Excel Mac 2016中导入CSV文件时,它无法识别格式。我必须用Sublime Text 2打开CSV才能找到好的格式,然后保存并最终在Excel for Mac中导入它。