如何从网页中提取除广告,无用链接之外的主要内容?

时间:2012-02-10 20:46:02

标签: java web web-scraping text-mining web-mining

  

可能重复:
  How to extract textual contents from a web page?

我已经搜索了很多但却无法找到我正在寻找的东西。实际上我想从网页中提取数据(只有主要数据,如新闻页面中的文章)。在谷歌搜索我发现了很多开源软件,如bottlepipe,Jtidy等,但我想编写自己的代码来做那个。因为我已经在java中编程并希望在java中实现它。有没有办法在不使用开源库的情况下做到这一点? / p>

你能为我提供一些很好的教程吗?

0 个答案:

没有答案