我正在搜索从网站收集所有语料库并将其写入单个文本文件的程序。 我现在有以下代码
#!/usr/bin/perl
print "Content-Type: text/html; charset=utf-8\n\n";
use CGI;
use Cwd;
use strict;
$q=new CGI;
$a=$q->param('file');
chomp($a);
print "$a<br>";
my $ftpname="www.kuvempu.com";
system("wget --mirror -p --convert-links -x --reject=gif $ftpname");
但它只提供网站的.html文件。如何仅从这些文件中提取文本并将其写入单个文本文件?
答案 0 :(得分:0)
您可以执行以下操作:
use strict;
use warnings;
use HTML::Strip;
use LWP::Simple qw/get/;
my $html = get shift or die "Unable to get web content.";
print HTML::Strip->new()->parse($html);
命令行用法:perl script.pl http://www.website.com > outFile.txt
outFile.txt
将包含网站的语料库。
希望这有帮助!