我试图从本地html文件中提取“乌尔都语”文本。我正在获取文本并将它们放在我的Perl脚本中的XML标记之前。现在在我的XML文件中,我在标签之间得到了一些文本,
<v no="29"> ا³”â€â€</v>
我不知道这是否与utf-8有关。那些HTML文件工作正常。所有乌尔都语文本看起来都不错。有什么想法吗?
<br><SPAN class="verse" id="29">29 </SPAN> اور خُدا نے کہا کہ دیکھو میں تمام رُوی زمین کی کُل بیج دار سبزی اور ہر درخت جس میں اُسکا بیج دار زمین کی کُل بیج دار سبزی اور ہر درخت جس میں اُسکا بیج دار پھل ہو تمکو دیتا ہوں ۔ یہ تمہارے کھانے کو ہوں ۔
<br><SPAN class="verse" id="30">30 </SPAN>اور زمین کے کل جانوروں کے لئے اور ہوا کے کُل پرندوں کے اور اُن سب کے لِئے جو زمین پر رینگنے والے ہیں جن میں زندگی کا دم ہے کُل ہری بوٹیاں کھانے کو دیتا ہوں اور اَیسا ہی ہوا۔ ۔
我从我的文档中使用正则表达式提取,而不是在线提取
m#(\ d +)\ s&lt; / span&gt;(。*)\ s #i等
我正在使用“print”来写入xml文件
Perl 5.18.2
Linux Mint 17 64位
感谢
答案 0 :(得分:2)
你是如何编写XML的?您使用的是模块还是print
?如果你能给我们原始的乌尔都语文本,我们将有更好的机会弄清楚会发生什么。使用数字实体编码的文本是ا³”â€â€
,看起来像双重编码文本,但很难在不知道应该是什么的情况下弄清楚它。
答案 1 :(得分:1)
这些是HTML实体代码。它们对于可移植性非常有用,特别是如果您的HTML托管在Web服务器上,该服务器默认配置为一些传统的单字节编码(通常为ISO-8859-1)。
解码这些在任何合理的高级语言中都是单行的,但是您应该使用一个库来保护您免受现代HTML世界的所有其他错综复杂的攻击。</ p>