应用错误收集

用于理解非结构化文档的技术

时间：2016-11-15 16:09:48

标签： machine-learning nlp data-mining text-mining

我有多个非结构化文档（PDF和HTML）。这些非结构化文档具有可预测的模式。还有＆＃39; n＆＃39; n这些模式的实例。

我需要编写一个程序来从这些文档中提取信息。程序应该以这样的方式，一旦它被训练为特定模式，它应该自动从相同模式的其他文档中选择数据点。

使用哪种技术编写此程序？任何有关特定算法的帮助都将非常感激。

1 个答案:

答案 0 :(得分：0)

对于此类非结构化数据，您需要将其转换为结构化数据。试着看Bag Of Words模型和TF-IDF加权
https://en.wikipedia.org/wiki/Bag-of-words_model
https://en.wikipedia.org/wiki/Tf%E2%80%93idf

然后尝试查看像Scikit Learn这样的框架及其在文本挖掘中的应用：http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html