我正在使用Java创建一个位置索引,它具有documentID和单词的位置,例如:如果我们有一个具有三个文档的场景文档
String [] docs = {“在段落之间放置新的回报”,“房屋哪些 是新泽西的“,”7月份房屋销售新增“}
。位置索引将具有如下所示的[word docID:文档中单词的位置。 PS:字符串数组中的每个短语都被视为文档
期望的输出
put 0 : 0
new 0 : 1 , 1 : 3 , 2 : 2
returns 0 : 2 ....
这是我尝试过的,但我无法得到“
”这个词的位置public static void main(String[] args) {
String[] docs = { "put new returns between paragraphs", "houses which are new in jersey", "home sales new rise in july"};
PositionalIndex pi = new PositionalIndex(docs);
System.out.print(pi);
}
位置指数
public PositionalIndex(String[] docs) {
ArrayList<Integer> docList;
docLists = new ArrayList<ArrayList<Integer>>();
termList = new ArrayList<String>();
myDocs = docs;
for (int i = 0; i < myDocs.length; i++) {
String[] tokens = myDocs[i].split(" ");
for (String token : tokens) {
if (!termList.contains(token)) {// a new term
termList.add(token);
docList = new ArrayList<Integer>();
docList.add(new Integer(i));
System.out.println(docList);
docLists.add(docList);
} else {// an existing term
int index = termList.indexOf(token);
docList = docLists.get(index);
if (!docList.contains(new Integer(i))) {
docList.add(new Integer(i));
docLists.set(index, docList);
}
}
}
}
}
显示
/**
* Return the string representation of a positional index
*/
public String toString() {
String matrixString = new String();
ArrayList<Integer> docList;
for (int i = 0; i < termList.size(); i++) {
matrixString += String.format("%-15s", termList.get(i));
docList = docLists.get(i);
for (int j = 0; j < docList.size(); j++) {
matrixString += docList.get(j) + "\t";
}
matrixString += "\n";
}
return matrixString;
}
答案 0 :(得分:1)
问题是你正在使用增强的for循环,它会隐藏索引。
从
更改内循环for (String token : tokens) {
...
到
for (int j=0; j<tokens.length;j++) {
String token = tokens[j];
...
并且您将拥有单词的位置 - j
。
而不是您当前使用的ArrayList
,为了在PositionalIndex
中存储您需要的所有数据,我建议使用Map<String,Map<Integer,Integer>
,其中外部的{ {1}}是术语(字),值是Map
,其键是文档索引,值是该文档中的术语索引。