如何从网站网址获取html元素名称

时间:2014-03-07 11:09:41

标签: java apache-tika

我希望在没有硬编码的情况下获取HTML元素名称和属性名称(我不想使用documet.getElementsByTag("*")document.select("*"))。

是否有机会使用 Apache Tika 动态获取HTML元素名称,如果可能,请提供任何示例示例?

    Document doc=Jsoup.connect("http://seenyc.co/").get();
            Elements elements=doc.getAllElements();
            for(Element ele:elements){


                String  s=ele.tagName();
                Attributes n=ele.attributes();
                System.out.println(s);
                System.out.println(n);
}

1 个答案:

答案 0 :(得分:2)

   HashSet<String> allTags=new HashSet<String>();
   Document doc=Jsoup.connect("http://seenyc.co/").get();
            Elements elements=doc.getAllElements();
            for(Element ele:elements){
                String  s=ele.tagName();
                Attributes n=ele.attributes();
                allTags.add(s);
}

// here your hashset will have all distinct tag names from website

这是你想要的吗?