应用错误收集

如何从网页中提取除广告，无用链接之外的主要内容？

时间：2012-02-10 20:46:02

标签： java web web-scraping text-mining web-mining

可能重复：
How to extract textual contents from a web page?

我已经搜索了很多但却无法找到我正在寻找的东西。实际上我想从网页中提取数据（只有主要数据，如新闻页面中的文章）。在谷歌搜索我发现了很多开源软件，如bottlepipe，Jtidy等，但我想编写自己的代码来做那个。因为我已经在java中编程并希望在java中实现它。有没有办法在不使用开源库的情况下做到这一点？ / p>

你能为我提供一些很好的教程吗？

0 个答案:

没有答案

如何从.html页面中提取链接和标题？
从网页中提取链接
如何从网页中提取文本内容？
如何从网页中提取除广告，无用链接之外的主要内容？
如何从Javascript中的页面中提取链接列表
从主页面中提取的新页面中提取文本
如何使用scrapy从网页中提取链接？
使用xpath从html页面提取链接
从网页中提取特定链接的数量。
如何仅从链接中提取段落部分，而排除网页中的其他链接？

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？