我的倒排索引没有得到正确的输出

时间:2015-11-29 12:52:04

标签: java inverted-index

现在我正在处理以Jsoup格式获取文件的倒排索引,然后使用<description>解析器获取index hash map标记之间的文本 将文本拆分为单词并查看No中是否有此单词

如果yes然后将此单词添加为键,则值为该单词的文件路径

if Map<String, List<String>> index = new HashMap<>(); Document doc = Jsoup.parse(xmlAsText.toString()); Elements descriptions = doc.getElementsByTag("DESCRIPTION"); if(descriptions.size() > 0) { line= descriptions.get(0).text(); for (String _word : line.split("\\W+")) { String word = _word.toLowerCase(); List<String> idx = index.get(word); if (idx == null)//the word not in the index { idx = new LinkedList<>(); idx.add(file.getParent() + "\\" + file.getName()); index.put(word, idx); // System.out.println(file.getName()+" "+word); } idx.add(file.getParent() + "\\" + file.getName()); } } (即哈希映射中的单词)然后只添加此单词的文件路径

这是我的代码的一部分,我有问题

{{1}}

当我运行我的代码时,我得到了输出

这是一个屏幕截图 sample from the output

BUT 有一些文件没有任何字(键) 并且索引中不存在一些单词 我的代码中有任何错误吗?或者我错过了什么!!

0 个答案:

没有答案