标签: java html html-content-extraction boilerpipe
Boilerpipe允许从网页中提取文章的文本,清理所有HTML混乱。但是,我怎么能提取文章的标题呢?有一种方法可以使用页面标题,但它有时不正确并包含不需要的单词(例如“title - sitename”)。
另一个想法是在<h1>和</h1>之间找到文字,但我仍然认为我会问更多解决方案。
<h1>
</h1>
答案 0 :(得分:0)
您在撰写网络抓取工具吗?我认为困难在于您需要知道标题在整个HTML中的位置。 对于大多数网站,他们有一个独特的编写html的模式,在编写爬虫之前应该知道它。