我有一些我的朋友帮助创建的代码:
1 use LWP::Simple;
2 use HTML::TreeBuilder;
3 use Data::Dumper;
4
5 my $tree = url_to_tree( 'http://www.registrar.ucla.edu/schedule/schedulehome.aspx' );
6
7 my @selects = $tree->look_down( _tag => 'select' );
8 my @quarters = map { $_->attr( 'value' ) } $selects[0]->look_down( _tag => 'option' );
9 my @courses = map { my $s = $_->attr( 'value' ); $s =~ s/&/%26/g; $s =~ s/ /+/g; $s } $selects[1]->look_down( _tag => 'option' );
10
11 my $n = 0;
12
13 my %hash;
14
15 for my $quarter ( @quarters )
16 {
17 for my $course ( @courses )
18 {
19 my $tree_b = url_to_tree( "http://www.registrar.ucla.edu/schedule/crsredir.aspx?termsel=$quarter&subareasel=$course" );
20
21 my @options = map { my $s = $_->attr( 'value' ); $s =~ s/&/%26/g; $s =~ s/ /+/g; $s } $tree_b->look_down( _tag => 'option' );
22
23 for my $option ( @options )
24 {
25
26
27 print "trying: http://www.registrar.ucla.edu/schedule/detselect.aspx?termsel=$quarter&subareasel=$course&idxcrs=$option\n";
28
29 my $content = get( "http://www.registrar.ucla.edu/schedule/detselect.aspx?termsel=$quarter&subareasel=$course&idxcrs=$option" );
30
31 next if $content =~ m/No classes are scheduled for this subject area this quarter/;
32
33 $hash{"$course-$option"} = 1;
34 #my $tree_c = url_to_tree( "http://www.registrar.ucla.edu/schedule/detselect.aspx?termsel=$quarter&subareasel=$course&idxcrs=$option" );
35
36 #my $table = ($tree_c->look_down( _tag => 'table' ))[2]->as_HTML;
37
38 #print "$table\n\n\n\n\n\n\n\n\n\n";
39
40 $n++;
41 }
42 }
43 }
44
45 my $hash_count = keys %hash;
46 print "$n, $hash_count\n";
47
48 sub url_to_tree
49 {
50 my $url = shift;
51
52 my $content = get( $url );
53
54 my $tree = HTML::TreeBuilder->new_from_content( $content );
55
56 return $tree;
57 }
我无法理解33
和45
行正在做什么。我认为在大多数情况下我得到其他所有的东西,即@selects
将所有包含在两个select标签中的内容放在正在考虑的网站上的.aspx文件中 - 我认为{的大小{1}}是2.我也从那时开始@selects
的第0个广告位传递到@selects
,类似地,位置1广告位传递到@courses。每个唯一的匹配都是枚举的,因此@quarters
是全年提供的课程总数。现在,我没有得到的是$ hash_count枚举的内容。我怀疑它是提供的独特课程的数量,所以n
在哪里是一种类似于(在伪代码中)的动物
n
我怀疑sizeof( ['math1 FALL 2014' , 'math1 SPRING 2014'] ) = 2
是一种类似
hash_count
右?
答案 0 :(得分:3)
此实例中哈希的目的是确保从正在处理的两个阵列中删除重复。
这是一个基本原则,“哈希”正在建立你的“课程”和“选项”元素。当有新东西时,它会创建一个新条目。当某些东西已经存在时,价值就会更新,如下所示:
$hash{"$course-$option"} = 1;
最后,keys
语句获取创建的哈希的所有键。在这个(标量)上下文中,它只返回键的数字,因此计数。
my $hash_count = keys %hash;
基本上代码正在删除重复项。
可能会建议您阅读hashes。
但这是基础知识:
假设我们已经定义了这样的哈希:
my %hash = ( one => 1, two => 2, three => 3 );
我们可以像这样为哈希分配一个新值:
$hash["four"] = 4;
新内容将是:
( one => 1, two => 2, three => 3, four => 4 )
但是如果使用已经“存在”的“钥匙”
$hash["two"] = 5;
结果内容将是
( one => 1, two => 5, three => 3, four => 4 )
因此,我们不添加其他条目,现有密钥只是更新了值。 “strong”只有只有一个条目,并且没有重复值“2”。
我们可以像在代码的最后部分一样获取哈希的键,如下所示:
my @keys = keys %hash;
这将返回一个如下所示的列表:
( 'one', 'two', 'three', 'four' )
它们不会按顺序排列,但不要复杂化。但是,如果我们没有返回接受列表的内容,请点击此处:
my $count = keys %hash;
然后返回的是哈希中包含的项目的数量:
print "$count\n";
将输出4
作为结果。
代码收集组合的“课程”和“选项”值的唯一匹配项,通过存储确定 唯一作为哈希中的键。最后,它会将键的计数返回到变量$hash_count
。然后打印结果。
答案 1 :(得分:2)
$course-$option
存储为哈希中的键,其中1为其关联值。为什么?哈希为查找提供了方便快捷的机制。这些值可能已存储在一个数组中,但随后的查找(以测试之前是否已经看过某个键)将不会那么快。keys
函数返回一个数组,其中包含 - 您猜对了 - 哈希中的所有键。但是,由于为其分配的变量($hash_count
)是标量,因此在标量上下文中对数组进行求值。在标量上下文中计算的数组就是该数组中的条目数。