应用错误收集

从HTML中提取文章的标题（使用Boilerpipe）

时间：2016-10-21 08:27:09

标签： java html html-content-extraction boilerpipe

Boilerpipe允许从网页中提取文章的文本，清理所有HTML混乱。但是，我怎么能提取文章的标题呢？有一种方法可以使用页面标题，但它有时不正确并包含不需要的单词（例如“title - sitename”）。

另一个想法是在<h1>和</h1>之间找到文字，但我仍然认为我会问更多解决方案。

1 个答案:

答案 0 :(得分：0)

您在撰写网络抓取工具吗？我认为困难在于您需要知道标题在整个HTML中的位置。对于大多数网站，他们有一个独特的编写html的模式，在编写爬虫之前应该知道它。