PHP解析维基百科内容,UTF8连字符

时间:2014-04-09 23:17:35

标签: php parsing wikipedia

我目前正在尝试使用PHP解析来自 de.wikipedia.org 的内容。

在阅读file_get_contents(...)页面并将收到的内容从utf8_decode(...)转换为UTF8到ISO-8859-1后,主要部分会正确显示并保存。只有一些特殊字符如“长连字符”( - )未被转换并显示为 -

此连字符似乎必须为unicode-id 150 - 我如何在ISO-8859-1上显示它?

示例:http://de.wikipedia.org/wiki/23_%E2%80%93_Nichts_ist_so_wie_es_scheint

1 个答案:

答案 0 :(得分:3)

请尝试使用iconv

$iso = iconv("UTF-8", "ISO-8859-1//TRANSLIT", $utf8);