我有一个使用NLTK的工作情绪分析程序,它从放在我本地机器上的.txt文件中读取文本。现在我想阅读放置在Hadoop HDFS中的txt文件并执行相同的情绪分析。
我怎样才能实现这个目标?
非常感谢关于这个主题的任何指示!
答案 0 :(得分:0)
所以除非nltk能够识别HDFS,否则这是不可能的。但是像NLTK这样的大多数程序都允许您将数据直接传递给程序。假设是这种情况,您可以使用我在其他答案中建议的内容How to run external program within mapper or reducer giving HDFS files as input and storing output files in HDFS?。您实际上是编写一个小型java适配器,它打开HDFS文件的输入流并将其传递给您要运行的程序。
如果这听起来太麻烦,或者由于某种原因在你的情况下是不可能的,那么你总是可以使用HDFS获取将文件放入本地地址。