如何使用Perl从网站收集语料库

时间:2014-03-11 13:46:00

标签: perl cgi-bin

我正在搜索从网站收集所有语料库并将其写入单个文本文件的程序。 我现在有以下代码

#!/usr/bin/perl

print "Content-Type: text/html; charset=utf-8\n\n";

use CGI;
use Cwd;
use strict;
$q=new CGI;
$a=$q->param('file');
chomp($a);
print "$a<br>";
my $ftpname="www.kuvempu.com";
system("wget --mirror -p --convert-links -x --reject=gif $ftpname");

但它只提供网站的.html文件。如何仅从这些文件中提取文本并将其写入单个文本文件?

1 个答案:

答案 0 :(得分:0)

您可以执行以下操作:

use strict;
use warnings;
use HTML::Strip;
use LWP::Simple qw/get/;


my $html = get shift or die "Unable to get web content.";
print HTML::Strip->new()->parse($html);

命令行用法:perl script.pl http://www.website.com > outFile.txt

outFile.txt将包含网站的语料库。

希望这有帮助!