我只是想知道是否可以使用扫描仪从网站读取数据。它不一定是文本网页,但有图片,可点击链接等。所以我怎么才能扫描文本而不是其他任何东西。这是一个应用程序,我会阅读的名称可能会有变化。这就是为什么我想从网站上阅读它们而不是制作我自己的文本文件并以这种方式阅读。任何帮助都会很棒。谢谢
答案 0 :(得分:1)
您应该使用jsoup。使用此工具可以轻松解析HTML页面。
您可以获取HTML文档,并可以遍历此处提到的元素:
Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
Elements newsHeadlines = doc.select("#mp-itn b a");
入门指南很容易学习:
答案 1 :(得分:1)
您可以使用名为Scraping的技术: