我使用perl get()方法来抓取一个URL。我得到了HTML代码但是当我从网站中提取泰米尔语内容时,它给了我奇怪的文本而不是泰米尔文本。我使用Firefox Inspector工具查看它包含的泰米尔语内容的HTML代码。但是当我从菜单中查看源时,它会显示编码的字符串。我使用以下代码来获取HTML
#!/usr/bin/perl
use LWP::Simple;
$content = get("http://www.arulvakku.com/biblecontent.php");
open www,">> foo";
select www;
print www $content;
die "Couldn't get it!" unless defined $content;
并将HTML代码存储在foo中。当我用Libreoffice作家打开它时,它显示了泰米尔语的网页。但当我查看源代码时,它给了我编码。 Firefox Inspector和HTML代码中的等效代码如下:
<span class = "biblecontent"> தொடக்கத்தில் கடவுள் விண்ணுலகையும், மண்ணுலகையும் படைத்த பொழுது, <span style="color:#D26900;font-size:16px"></span></span>
已删除的等效HTML代码:
<span class="biblecontent"> தொடக்கத்தில் கடவுள் விண்ணுலகையும், மண்ணுலகையும் படைத்த பொழுது, <span style='color:#D26900;font-size:16px'></span></span>
如何获取泰米尔语内容或如何将HTML内容转换回泰米尔语。获取泰米尔语或其他语言内容HTML代码的任何其他方式对我都有帮助。
答案 0 :(得分:1)
使用HTML :: Entities模块:
#!/usr/bin/perl
use strict;
use warnings;
use HTML::Entities;
use utf8;
my $str = 'ொடக்கத்தில் கடவுள';
print decode_entities($str);
输出:
ொடக்கத்தில் கடவுள