我正在开展一个关于从文档中提取元数据的小项目,并且遇到了困境。我有一些Java库,它们可以很好地处理信息检索的文档处理,比如Apache Tika,POI等,以及其他语言中的一些工具,比如Ruby(pdf-extract)和bash中的脚本,用于从RESTful API获取数据wget的。
AFAIK,代码重用是件好事,对吧?但是,如果不可能(本地,我的意思)重用所有这些代码,必须采取什么方法?
使用Java来运行终端命令是一种解决方案,但我认为这不是一个好的编程实践。
答案 0 :(得分:1)
在现实世界的应用程序中,集成多种技术是非常常见的。为了使其正确扩展,您可能希望使用一些方法来保持一致。对我来说,最弱的部分可能是使用wget获取,但这是我的观点。
为了集成并使所有内容都能很好地扩展,您可能需要查看一些消息传递协议,并对各个队列运行不同编程语言和环境的队列进行某种处理。看看: