我有多个非结构化文档(PDF和HTML)。这些非结构化文档具有可预测的模式。还有' n' n这些模式的实例。
我需要编写一个程序来从这些文档中提取信息。程序应该以这样的方式,一旦它被训练为特定模式,它应该自动从相同模式的其他文档中选择数据点。
使用哪种技术编写此程序?任何有关特定算法的帮助都将非常感激。
答案 0 :(得分:0)
对于此类非结构化数据,您需要将其转换为结构化数据。试着看Bag Of Words模型和TF-IDF加权
https://en.wikipedia.org/wiki/Bag-of-words_model
https://en.wikipedia.org/wiki/Tf%E2%80%93idf
然后尝试查看像Scikit Learn这样的框架及其在文本挖掘中的应用:http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html