从HTML中提取文章的标题(使用Boilerpipe)

时间:2016-10-21 08:27:09

标签: java html html-content-extraction boilerpipe

Boilerpipe允许从网页中提取文章的文本,清理所有HTML混乱。但是,我怎么能提取文章的标题呢?有一种方法可以使用页面标题,但它有时不正确并包含不需要的单词(例如“title - sitename”)。

另一个想法是在<h1></h1>之间找到文字,但我仍然认为我会问更多解决方案。

1 个答案:

答案 0 :(得分:0)

您在撰写网络抓取工具吗?我认为困难在于您需要知道标题在整个HTML中的位置。 对于大多数网站,他们有一个独特的编写html的模式,在编写爬虫之前应该知道它。