从字符串中删除希伯来语格式化字符

时间:2011-09-08 13:49:15

标签: php hebrew

我有一个问题,就是在几天内踢我的屁股。

我有一个字符串数组,每个字符串都包含一个希伯来语单词。

这些单词从PDF中翻录并以与PDF中所示相同的顺序出现在数组中。

我想把这些单词按照它们在数组和PDF中的顺序重构成一个句子。似乎很简单。

编辑:这是代码,它实际上是我正在循环的XML,我认为它无关紧要但是因为我正在展示代码我最好把它弄好:)

foreach($text->TOKEN as $word) {
    $sentence = $sentence . ' ' . $word;
}

/*
This sentence will sometimes (not always) not have the same order as the XML.
Hebrew is read right to left but thats not the issue, I just want to make a 
string in the same order as the words.
*/
echo $sentence;

就像这些词语有他们自己的想法一样,这个命令混淆了对非希伯来语读者来说似乎不合逻辑的命令。逗号甚至会转向不同的词。但情况并非总是如此。

我不读或说希伯来语但是从我可以收集到的内容中,语言中有一些可能影响订单的特殊字符?我的问题是我该如何去除它们?

我正在使用PHP。

1 个答案:

答案 0 :(得分:0)

没有看到您的代码,这里有两个建议:

  1. 使用print_r打印出希伯来语单词数组,看看他们在哪个顺序。
  2. 请记住,希伯来语是从右到左阅读,而不是从左到右阅读。
  3. 否则,请提供更多代码以获得进一步的帮助。