我目前正在尝试使用PHP解析来自 de.wikipedia.org 的内容。
在阅读file_get_contents(...)
页面并将收到的内容从utf8_decode(...)
转换为UTF8到ISO-8859-1后,主要部分会正确显示并保存。只有一些特殊字符如“长连字符”( - )未被转换并显示为 - 或?。
此连字符似乎必须为unicode-id 150 - 我如何在ISO-8859-1上显示它?
示例:http://de.wikipedia.org/wiki/23_%E2%80%93_Nichts_ist_so_wie_es_scheint