对于网络搜索项目,我使用Python中的BeautifulSoup和Selenium成功地从社交媒体平台中提取信息。 所有数据都存储在一个CSV文件中,清理后 - 12.000个独特的观察结果,以及不同的13个变量(列)。
CSV文件如下所示:
id, medium, text_1, text_2, ...
1, image, ['Lorem ipsum dolor sit amet, consectetur adipiscing elit. #LoremIpsum' ], ['In imperdiet'], ...
2, video, ['Sed nisi arcu, laoreet a pretium et, elementum sit amet augue #LoremIpsum #sitamet' ], ['onsectetur adipiscing'], ...
3, none, ['Nam ultrices lobortis ipsum in tincidunt. #ipsum #lobortis' ], ['efficitur magna '], ...
4, none, ['Hebrew Hebrew Hebrew Hebrew Hebrew Hebrew # Hebrewhahstag' ], [' Hebrew Hebrew text'], ...
5, image, ['Russian Russian Russian Russian, i.e. text in Cyrillic alphabet #Cyrillic_hahstag' ], ['Cyrillic text'], ...
6, none, ['Arabic Arabic Arabic Arabic, i.e. text in Arabic alphabet #Arabic_hahstag' ], [' Arabic text'], ...
7, image, ['Arabic Russian Hebrew English Smileys and Emojis #Emoji #English #Arabic' ], ['Cyrillic text'], ...
我的问题是双重的。
我可以编写什么Python脚本来迭代text1和text2列并将找到的非拉丁文本转换为拉丁语等值?
2.我可以写什么Python脚本,如果它包含非拉丁字符,将丢弃csv文件中的每一行/每行。
不言而喻,我不想删除包含" @ mentions"或"# - tags"的行,因为这会让我留下零行。
更具体地说,在上面的例子中:我希望将案例4,5,6,7的非拉丁语信息转换为拉丁文本,或完全删除这些案例。如果可能的话,第一种解决方案当然是我的偏好。
我一直在使用正则表达式,带有编码,带有unicode和UTF,但是我还没有成功地编写一个完全符合我希望它的代码。同样,据我所知,此特定问题尚未在此(或其他)在线专家社区中得到解决。
我必须承认我的Python技能是初学者级别的。
我非常感谢你的帮助和努力。
非常感谢!
托马斯