应用错误收集

存储非结构化文本文件以进行数据挖掘的最佳方法是什么

时间：2012-08-02 10:30:55

标签： database text cloud

我的机器上有数百万条短信息。我想对它进行一些文本挖掘。

我想首先以更有条理的方式存储文本新闻。什么是最好的方法呢？所以稍后进行数据挖掘会更方便。

目前我只是将这些新闻文件存储在由新闻标题和文件路径索引的数据库中。

任何建议都会非常感激。谢谢！

2 个答案:

答案 0 :(得分：1)

这在很大程度上取决于您希望获得更多结构化数据的内容。

如果数据量不大，您可以在数据库中使用“in text”搜索，并且已经完成了。

像stackoverflow这样的类别或“标签”将有助于对内容进行分类和分组，但我想现在很难从纯文本库中提取它。

同样是一个简单的时间戳（你可以从文件本身获取，但要警惕某些系统在文件被复制时改变那个日期......）也可以提供帮助。

对于内容提取，请查看http://www.opencalais.com/，它为您可能感兴趣的“文本”分析提供了api。

答案 1 :(得分：1)

“做一些文本挖掘”是什么意思？你只是想存储文字吗？或者，您在寻找解决方案吗？

许多数据库都提供了存储文本和快速检索文本的功能。

然而，文本挖掘通常涵盖更广泛的主题。以下是一些例子：

查找具有相似主题的文档。
在文件中公开情绪。
回答用自然语言提出的问题。
总结文件。
使用文档中的信息填充数据结构。
使用文档中的信息进行预测建模。
将代码分配给文档。

对于此类分析，您通常会使用文本挖掘工具（例如，您可以在kdnuggets.com上查找这些工具）。然后该工具会影响文本的存储方式。

“营销，销售和客户支持的数据挖掘技术”的最后一章是关于文本挖掘的，并且对应用于客户服务记录的文本挖掘进行了非常好的案例研究。

[回应评论]

这是一个学术项目还是“现实世界”？文字是单语吗？如果是的话，这是英文吗？你肯定需要做一些研究。文本分析/挖掘一直是一个相当激烈的研究领域，因为至少，当阿兰图灵在20世纪30年代提出图灵测试时。

作为一个例子，我可以很容易地想到四个非常不同的选项来存储用于分析的文本。第一个是“按原样”，如果你有很多处理器和内存，这是最有用的。第二个是“语法”，文字用语法和含义标记，如果你有一个拥有大量博士学位的团队，那么这是最有效的。第三个是反向索引，它是搜索和一些邻近匹配的基本形式。第四种方法是使用奇异值分解投影到正交空间（如果您想将文本用作其他统计技术的输入，则最有用）。