Question

对于网络搜索项目，我使用Python中的BeautifulSoup和Selenium成功地从社交媒体平台中提取信息。所有数据都存储在一个CSV文件中，清理后 - 12.000个独特的观察结果，以及不同的13个变量（列）。

CSV文件如下所示：

id, medium, text_1, text_2, ...
1, image, ['Lorem ipsum dolor sit amet, consectetur adipiscing elit. #LoremIpsum' ], ['In imperdiet'], ...
2, video, ['Sed nisi arcu, laoreet a pretium et, elementum sit amet augue #LoremIpsum #sitamet' ], ['onsectetur adipiscing'], ...
3, none, ['Nam ultrices lobortis ipsum in tincidunt. #ipsum #lobortis' ], ['efficitur magna '], ...
4, none, ['Hebrew Hebrew Hebrew Hebrew Hebrew Hebrew # Hebrewhahstag' ], [' Hebrew Hebrew text'], ...
5, image, ['Russian Russian Russian Russian, i.e. text in Cyrillic alphabet #Cyrillic_hahstag' ], ['Cyrillic text'], ...
6, none, ['Arabic Arabic Arabic Arabic, i.e. text in Arabic alphabet #Arabic_hahstag' ], [' Arabic text'], ...
7, image, ['Arabic Russian Hebrew English Smileys and Emojis #Emoji #English #Arabic' ], ['Cyrillic text'], ...

我的问题是双重的。

我可以编写什么Python脚本来迭代text1和text2列并将找到的非拉丁文本转换为拉丁语等值？

2.我可以写什么Python脚本，如果它包含非拉丁字符，将丢弃csv文件中的每一行/每行。

不言而喻，我不想删除包含＆＃34; @ mentions＆＃34;或＆＃34;＃ - tags＆＃34;的行，因为这会让我留下零行。

更具体地说，在上面的例子中：我希望将案例4,5,6,7的非拉丁语信息转换为拉丁文本，或完全删除这些案例。如果可能的话，第一种解决方案当然是我的偏好。

我一直在使用正则表达式，带有编码，带有unicode和UTF，但是我还没有成功地编写一个完全符合我希望它的代码。同样，据我所知，此特定问题尚未在此（或其他）在线专家社区中得到解决。

我必须承认我的Python技能是初学者级别的。

我非常感谢你的帮助和努力。

非常感谢！

托马斯

如果行中的单元格包含希伯来语，阿拉伯语或俄语字符，如何删除（或处理）csv文件中的行？

0 个答案: