从边缘删除值

时间:2013-11-22 17:29:47

标签: java

我有以下格式的数据

String [] data = new String[]{"-166444026   0   file    20130801",
"-166444026 0   file    20130802",
"-166444027 0   file    20130802"};

这些是制表符分隔的字符串。 现在.. 所以我们有 键,值,类型,日期。

我想要的是在列表中保留最新的唯一键。 所以例如...... 此操作的输出应为......

["-166444026    0   file    20130802",
"-166444027 0   file    20130802"];

因为-166444026有两次出现但我删除的那个有20130801的日期而且这个日期更晚了?

我编写了代码..但这只会返回所有内容。(我认为这是假设删除..但它不是..)??

任何线索?

package org.random_scripts;

import java.util.ArrayList;
import java.util.HashMap;
import java.util.Map;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.json.simple.JSONObject;

public class Regex {
    private static boolean alreadyExists(Map<String, Long> dict, String key) {
        if(dict.containsKey(key))
            return true;
        return false;
    }
    private static void removeEdge(ArrayList<JSONObject>edgeList, String key) {

        for(JSONObject edge:edgeList) {
            if (edge.get("destination").equals(key))
                edge.remove(key);
        }
    }

    public static void main(String[] args) {

        String [] data = new String[]{"-166444026   0   file    20130801",
                                    "-166444026 0   file    20130802",
                                    "-166444026 0   file    20130802"};

        try {
            String key = "185479485";
            JSONObject jsn = new JSONObject();
            jsn.put("source", key.toString());

            ArrayList<JSONObject> edges = new ArrayList<JSONObject>();
            Map<String, Long> tracker = new HashMap<String, Long>();
            for (int i=0; i < data.length; i++) {
                String value = data[i];
                //edgeString+= value.toString()+",";
                String[] typeChunks = value.toString().split("\t");

                String destination = typeChunks[0];
                Double reputation = Double.parseDouble(String.valueOf(typeChunks[1]));
                System.out.println(tracker.values().toString());
                JSONObject edgeJson = new JSONObject();
                Long date = Long.valueOf(typeChunks[3]);
                if(alreadyExists(tracker,destination)) {
                    Long prev_date = tracker.get(destination);
                    System.out.println(true);
                    if (date > prev_date) {
                        //remove edge
                        removeEdge(edges,destination);
                        System.out.println("edges are" + edges.toString());

                    }
                }
                else {
                    tracker.put(destination, date);

                }


                edgeJson.put("destination", destination);
                edgeJson.put("reputation", reputation);
                edgeJson.put("type", typeChunks[2]);
                edges.add(edgeJson);

            }
            jsn.put("edgelist", edges);
            System.out.println(jsn.toJSONString());
            //context.write(NullWritable.get(), new Text(jsn.toJSONString()));
            //edgeString = edgeString.substring(0,edgeString.length()-1);
            //edgeString+="]";
            }
            catch (Exception e) {
                System.out.println("Exceptiom");
                //context.write(NullWritable.get(),new Text(s) );
            }




        }

}

2 个答案:

答案 0 :(得分:1)

使用HashMap,然后将每一行分配到HashMap中的密钥。

HashMap将仅保留最新分配的值,因此您可以根据日期决定是否要重新分配。

如果您需要保留行的原始顺序,可以使用保留广告订单的LinkedHashMap

希望它有所帮助。

答案 1 :(得分:1)

使用正则表达式搜索最后一个单词,然后只迭代数组?

    String key = data[data.length - 1].replaceAll(".*\\s", "");
    for (int i = 0; i < data.length; i++) {
        if (data[i].endsWith(key)) {
            System.out.println(data[i]);
        }
    }

输出:

-166444026 0   file    20130802
-166444027 0   file    20130802