我必须做一些数据收集,即获得一个相对干净的语料库获取大流。语料库只是一个网页(HTML)的集合 - 每个页面对应一个新闻文章,其中包含相关信息,如出版日期,出现的版本,出现的部分等。
我必须开发一种可以并行抓取不同语言的新闻纸网站的抓取工具。 让我们确定2种语言(英语和印地语)。写一个爬虫来从这些报纸的网站上搜集文章。我们必须收集它1个月
我们感兴趣的是从各种报纸的网站上收集大量多语言新闻文章,因为它们在网站上发布。
我没有写完全成熟的刮刀,而是被告知要使用像RSS源这样的来源。 该想法是获得平行语料库 - 即,报纸文章是不同语言并且彼此同步。
构建爬虫后,我们必须在服务器上设置它以获取报纸流
请告诉我应该使用哪些工具和编程语言来构建此抓取工具。 我知道JAVA,所以我希望最好能够使用Java库。 我知道RSS提要是XML格式
答案 0 :(得分:0)
我不确定究竟是什么问题,但是,RSS源可能是要走的路(至少作为一个信号),是的,JAVA有很好的工具来处理Feed:)