现在我正在处理以Jsoup
格式获取文件的倒排索引,然后使用<description>
解析器获取index hash map
标记之间的文本
将文本拆分为单词并查看No
中是否有此单词
如果yes
然后将此单词添加为键,则值为该单词的文件路径
if Map<String, List<String>> index = new HashMap<>();
Document doc = Jsoup.parse(xmlAsText.toString());
Elements descriptions = doc.getElementsByTag("DESCRIPTION");
if(descriptions.size() > 0)
{
line= descriptions.get(0).text();
for (String _word : line.split("\\W+"))
{
String word = _word.toLowerCase();
List<String> idx = index.get(word);
if (idx == null)//the word not in the index
{
idx = new LinkedList<>();
idx.add(file.getParent() + "\\" + file.getName());
index.put(word, idx);
// System.out.println(file.getName()+" "+word);
}
idx.add(file.getParent() + "\\" + file.getName());
}
}
(即哈希映射中的单词)然后只添加此单词的文件路径
这是我的代码的一部分,我有问题
{{1}}
当我运行我的代码时,我得到了输出
这是一个屏幕截图 sample from the output
BUT 有一些文件没有任何字(键) 并且索引中不存在一些单词 我的代码中有任何错误吗?或者我错过了什么!!