我们需要从非结构化来源(如信件,rad报告等)中提取暗数据。请建议使用Azure资源从常见文档格式中提取数据:DOC,DOCX,PDF,RTF,TXT,HTML等,然后对提取的数据进行分析。
答案 0 :(得分:0)
听起来您只是想从这些RTF格式文档中提取原始文本或图像。如果仅执行这些操作,那么您真正的需求就是一些解析不同文档的库。
这里有一些Java或Python库可以做到这一点。如果您使用的是我不熟悉的.NET,则可以在Google或Bing中搜索以找到.NET的替代方案。
Apache POI
是一个很好的库,用于从MS Office文件中提取数据。对于Python,似乎没有任何软件包可以执行此操作,除了在Windows上的.NET中使用Word.Application
或IronPython
(Reading/Writing MS Word files in Python)之类的COM对象之外。Apache PDFBox
,jPDFText
和Python有PyPDF2
。javax.swing.text.rtf.RTFEditorKit
支持,您可以通过搜索获得一些示例代码;像#1一样,对于Python也似乎没有。jsoup
对于Python来说是BeautifulSoup
和HTMLParser
对于从HTML中提取数据最有效。Stanford NLP
和Python的NLTK
很有用,而且使用Cognitive Service的Azure Text Analytics API可以帮助完成诸如关键词提取和语言检测之类的工作。Tess4J
或您在其中搜索的其他库) GitHub。以上所有内容几乎都取决于没有Azure资源的第三方开发工具包。但是,您可以将这些文档存储在Azure存储中,并在Azure VM或批处理服务上进行处理,甚至可以分析Azure Jupyter Notebook中的提取数据,或者使用Azure ML进行更深入的研究。