我有以下格式的数据
String [] data = new String[]{"-166444026 0 file 20130801",
"-166444026 0 file 20130802",
"-166444027 0 file 20130802"};
这些是制表符分隔的字符串。 现在.. 所以我们有 键,值,类型,日期。
我想要的是在列表中保留最新的唯一键。 所以例如...... 此操作的输出应为......
["-166444026 0 file 20130802",
"-166444027 0 file 20130802"];
因为-166444026有两次出现但我删除的那个有20130801的日期而且这个日期更晚了?
我编写了代码..但这只会返回所有内容。(我认为这是假设删除..但它不是..)??
任何线索?
package org.random_scripts;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.Map;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.json.simple.JSONObject;
public class Regex {
private static boolean alreadyExists(Map<String, Long> dict, String key) {
if(dict.containsKey(key))
return true;
return false;
}
private static void removeEdge(ArrayList<JSONObject>edgeList, String key) {
for(JSONObject edge:edgeList) {
if (edge.get("destination").equals(key))
edge.remove(key);
}
}
public static void main(String[] args) {
String [] data = new String[]{"-166444026 0 file 20130801",
"-166444026 0 file 20130802",
"-166444026 0 file 20130802"};
try {
String key = "185479485";
JSONObject jsn = new JSONObject();
jsn.put("source", key.toString());
ArrayList<JSONObject> edges = new ArrayList<JSONObject>();
Map<String, Long> tracker = new HashMap<String, Long>();
for (int i=0; i < data.length; i++) {
String value = data[i];
//edgeString+= value.toString()+",";
String[] typeChunks = value.toString().split("\t");
String destination = typeChunks[0];
Double reputation = Double.parseDouble(String.valueOf(typeChunks[1]));
System.out.println(tracker.values().toString());
JSONObject edgeJson = new JSONObject();
Long date = Long.valueOf(typeChunks[3]);
if(alreadyExists(tracker,destination)) {
Long prev_date = tracker.get(destination);
System.out.println(true);
if (date > prev_date) {
//remove edge
removeEdge(edges,destination);
System.out.println("edges are" + edges.toString());
}
}
else {
tracker.put(destination, date);
}
edgeJson.put("destination", destination);
edgeJson.put("reputation", reputation);
edgeJson.put("type", typeChunks[2]);
edges.add(edgeJson);
}
jsn.put("edgelist", edges);
System.out.println(jsn.toJSONString());
//context.write(NullWritable.get(), new Text(jsn.toJSONString()));
//edgeString = edgeString.substring(0,edgeString.length()-1);
//edgeString+="]";
}
catch (Exception e) {
System.out.println("Exceptiom");
//context.write(NullWritable.get(),new Text(s) );
}
}
}
答案 0 :(得分:1)
使用HashMap
,然后将每一行分配到HashMap
中的密钥。
HashMap
将仅保留最新分配的值,因此您可以根据日期决定是否要重新分配。
如果您需要保留行的原始顺序,可以使用保留广告订单的LinkedHashMap
。
希望它有所帮助。
答案 1 :(得分:1)
使用正则表达式搜索最后一个单词,然后只迭代数组?
String key = data[data.length - 1].replaceAll(".*\\s", "");
for (int i = 0; i < data.length; i++) {
if (data[i].endsWith(key)) {
System.out.println(data[i]);
}
}
输出:
-166444026 0 file 20130802
-166444027 0 file 20130802