应用错误收集

我必须做一些数据收集，即获得一个相对干净的语料库获取大流。语料库只是一个网页（HTML）的集合 - 每个页面对应一个新闻文章，其中包含相关信息，如出版日期，出现的版本，出现的部分等。

我必须开发一种可以并行抓取不同语言的新闻纸网站的抓取工具。让我们确定2种语言（英语和印地语）。写一个爬虫来从这些报纸的网站上搜集文章。我们必须收集它1个月

我们感兴趣的是从各种报纸的网站上收集大量多语言新闻文章，因为它们在网站上发布。

我没有写完全成熟的刮刀，而是被告知要使用像RSS源这样的来源。该想法是获得平行语料库 - 即，报纸文章是不同语言并且彼此同步。

构建爬虫后，我们必须在服务器上设置它以获取报纸流

请告诉我应该使用哪些工具和编程语言来构建此抓取工具。我知道JAVA，所以我希望最好能够使用Java库。我知道RSS提要是XML格式