大家好我正在尝试创建我的抓取工具解析的html页面上所有单词的索引。 此时我已经设法将html页面分解为一系列单词,并且我已经过滤掉所有停用词。
在这个阶段我遇到了一些问题。
解析后的html页面中的单词数组中包含重复的单词,我喜欢这样,因为我仍然需要记录单词出现在页面中的次数。
阵列看起来像这样。
$wordsFromHTML =
array (size=119)
0 => string 'web' (length=3)
1 => string 'giants' (length=6)
2 => string 'vryheid' (length=7)
3 => string 'news' (length=4)
4 => string 'access' (length=6)
5 => string 'mails' (length=5)
6 => string 'mobile' (length=6)
7 => string 'february' (length=8)
8 => string 'access' (length=6)
9 => string 'mails' (length=5)
10 => string 'web' (length=3)
11 => string 'february' (length=8)
12 => string 'access' (length=6)
13 => string 'mails' (length=5)
14 => string 'desktop' (length=7)
15 => string 'february' (length=8)
16 => string 'hosting' (length=7)
17 => string 'web' (length=3)
18 => string 'giants' (length=6)
19 => string 'vryheid' (length=7)
20 => string 'february' (length=8)
22 => string 'us' (length=2)
现在我想将$ wordsFromHTML中的所有单词保存到$ indesArray,这是我的最终索引。
应该是这样的。
$indexArray = array('web'=>array('url'=>array(0,10,17)))
问题是如何为最终索引数组中$wordsFromHTML
数组重复的每个单词增加位置($wordsFromHTML
键)。
索引数组应该只有唯一的单词,如果已经存在的另一个单词试图进入,我们使用已经存在的具有相同URL并增加其位置的单词。
希望你理解我的问题。