根据名称对pdf文件进行分类

时间:2015-08-28 14:20:44

标签: weka text-classification

我有pdf文件列表(他们的名字),如

  1. Financial_Statement_Q1_2015_En 属于季度报告。
  2. Financial_Statement_Yealy_2015 属于非季度报告。
  3. 我需要根据季度和非季度报告对pdf的名称进行分类。 请告诉我方法,如何使用适当的工具完成此任务。

1 个答案:

答案 0 :(得分:0)

当你的文件像你的例子那样公开地命名时,一个简单的模式匹配就可以了。

这里有一些伪代码:

if "_Q\d_" in filename:
  print filename " belongs to quarterly reports"
else:
  print filename " does not belong to quarterly reports"