提取具有特定方言的推文的最有效方法是什么?

时间:2019-05-13 18:39:04

标签: python twitter dataset text-classification

我正在为阿拉伯语进行文本分类,因此我需要收集数据。所以我正在使用Twitter API来做到这一点。

但是,问题是:

我需要找到方言​​相同的推文。

我有一个解决方案是:

仅根据一种方言收集的某些关键字收集推文

该解决方案的一个问题是:

当我测试数据时,准确度当然会很高。因为测试数据将包含我用来收集数据集的那些关键字。

我在寻找什么

没有其他方法可以避免这种偏见吗?

1 个答案:

答案 0 :(得分:0)

请注意,这是一个获取特定代码建议的平台,而不是讨论方法。

也就是说,您可以手动从该特定方言收集数据并收集其他推文,然后构建一个分类器来预测该推文所属的组。