我有一个充满各种产品评论的数据库。我的任务是执行各种计算并使用聚合数据“创建”另一个“database / xml-export”。我正在考虑在python中编写命令行程序来做到这一点。但我知道之前有人已经这样做了,我知道有一些开源的python解决方案或类似的东西可能会提供更多有趣的“聚合数据”然后我可能会想到。
问题是除了从命令行进行基本数据操作之外我还不太了解这个区域,也不知道我应该用什么术语来搜索这个东西..我真的不是在寻找一些科学的东西/可视化的东西(不是我不介意工具提供),简单的开始,逐步看到/开发我需要的东西。
我唯一的要求是“结束聚合数据”在数据库中或导出为XML文件没有专有的东西。它比我的python脚本有点健壮,因为我必须处理4台机器上的“大量”数据。
任何提示应该从哪里开始我的研究?
感谢。
答案 0 :(得分:1)
你想做什么样的分析?
如果您正在分析文字,请查看Natural Language Toolkit(NLTK)。
如果您想索引和搜索数据,请查看whoosh搜索引擎。
请提供一些有关您希望进行何种分析的详细信息。
答案 1 :(得分:1)
看起来您正在寻找数据集成解决方案 一个建议是Kettle project套件的开源Pentaho部分 对于python,快速搜索产生了PyDI和SnapLogic