标签: web-scraping text-mining text-analysis
我想知道是否有用于识别网页内容部分的库。示例:我有一个关于新闻文章的网页,其中包括标题上的菜单样式,右侧栏上的广告,页脚上的相关链接以及页面中间的该文章的内容。我希望系统能够识别最重要内容的位置,然后我们将在该部分查找匹配的关键字,而不是在页面上进行整体搜索。