使用关键字对列中的文本进行分类

时间:2018-05-17 10:10:16

标签: python pandas dictionary machine-learning pyspark

我有一个表格列,其中包含解决问题的处理说明,此文字为contian关键字。

在其他列表中,我有一个类别列表,其中包含有助于识别它的不同关键字。

例如:

类别|关键字

AAAA |关键字1

AAAA | keyword2和keyword3

AAAA | keyword3而不是keyword4

BBBB | keyword4

BBBB | keyword5和keyword6

BBBB | keyword7

如何使用其中的关键字填充上一个表格中的类别列(包含说明)。

例如:

     Description                  |  category

这个自由文本关键字1完成了| AAAA

免费sample2 keyword4 keyword3 | BBBB

我使用的语言是python,

我发现了一个类似的案例,但是使用了Excel: https://exceljet.net/formula/categorize-text-with-keywords

KIND REGARDS

1 个答案:

答案 0 :(得分:0)

我首先要创建一个元组列表,其中第一个元素是类别,第二个元素是一个字典,其中包含应该在描述中包含/排除的关键字列表。例如

String token_id = FirebaseInstanceId.getInstance().getToken();
   Log.i("token_id",token_id);
   Map<String,Object>  tokenMap = new HashMap<>();
   tokenMap.put("token_id",token_id);
   mFireStore.collection("Users").document(current_id).update(tokenMap).addOnSuccessListener(new OnSuccessListener<Void>() {
              @Override
              public void onSuccess(Void aVoid) {
                 Toast.makeText(LoginActivity.this, "Signed in Successfully", Toast.LENGTH_SHORT).show();
                 startActivity(new Intent(LoginActivity.this,AdminActivity.class));
                 finish();
         }
  });

正确初始化了public X509Certificate2 LoadCertificate(string filename, string password) { X509Certificate2 cert = null; X509Store certStore = new X509Store(StoreName.My, StoreLocation.CurrentUser); certStore.Open(OpenFlags.ReadOnly); X509Certificate2Collection certCollection = certStore.Certificates.Find( X509FindType.FindByThumbprint, "6B7ACC520305BFDB4F7252DAEB2177CCd091FAAE1", false); if (certCollection.Count > 0) { cert = certCollection[0]; } if(cert == null) { var path = $@"{AppDomain.CurrentDomain.BaseDirectory}{filename}"; cert = new X509Certificate2(path, password); } return cert; } 后,您可以遍历说明列表以确定它们属于哪个类别。让我们将结果存储在名为keyword_tuple = [('AAAA', {'in': ['kwrd1'], 'out':[]}), ('AAAA', {'in': ['kwrd2', 'kwrd3'], 'out': []), ('AAAA', {'in': ['kwrd3'], 'out': ['kwrd4']}), ('BBBB', {'in': ['kwrd4'], 'out': [])] 的元组列表中,其中第一个元素是描述,第二个元素是相应的类别。

keyword_tuple