如何一次在20000个文档上运行主题模型?

时间:2016-06-06 07:59:39

标签: bash topic-modeling mallet

我有20000个新闻文件来运行主题建模:

我希望从文档中看到主题动态和演变。我尝试使用以下批处理脚本与主题建模槌但不起作用。

#!/bin/bash
for filename in /Users/JasonDou/code/internet_finance/bydocafterseg2; do
    ./bin/mallet import-dir --input /Users/JasonDou/code/internet_finance/bydocafterseg2/159047443.txt  --output bydoc-input.mallet --keep-sequence --remove-stopwords
done

1 个答案:

答案 0 :(得分:1)

你错过了一个星号:

#!/bin/bash
for filename in "/Users/JasonDou/code/internet_finance/bydocafterseg2/"*; do
    [ -e "$filename" ] || continue
    ./bin/mallet import-dir --input "$filename" \
      --output bydoc-input.mallet --keep-sequence --remove-stopwords
done

以上将列出bydocafterseg2中每个文件的迭代。您可以使用以下代码将其更改为所有.txt个文件:"bydocafterseg2/"*".txt"