标签: java web web-scraping text-mining web-mining
可能重复: How to extract textual contents from a web page?
我已经搜索了很多但却无法找到我正在寻找的东西。实际上我想从网页中提取数据(只有主要数据,如新闻页面中的文章)。在谷歌搜索我发现了很多开源软件,如bottlepipe,Jtidy等,但我想编写自己的代码来做那个。因为我已经在java中编程并希望在java中实现它。有没有办法在不使用开源库的情况下做到这一点? / p>
你能为我提供一些很好的教程吗?