用 langid 识别斯语推特的结果

最近正在搭建一个斯瓦希里语推特语料库,简称 tweka,在斯瓦希里语(以下简称斯语)中这个词的意思是“举起,推起”。这篇日志记录一些在搭建这个语料库时遇到的一些困难。

twika1

另外,搭建这个语料库使用的脚本是基于波茨坦大学的 Tatjana Scheffler 维护的项目。在那个项目中,她为德语语言学学者写了一个抓取推特信息的脚本。

langid 无法使用

Scheffler 的Twitter-for-Linguists脚本中使用 langid 将特定从其他语种中过滤出来,langid 在说明文件中声称可以识别 97 门不同的语言,并且包含了斯瓦希里语。我之前下载了 langid 的独立脚本程序,测试了一下,发现其实 langid 对斯瓦希里语的识别能力很低。有可能是因为斯瓦希里语作为一门黏着语,一个单词中可以包含很多的语素,使得一个句子所包含的单词并不那么多,导致 langid 的识别效果较差。

改脚本改成让它使用 langid 斯语识别,试着抓取了一些记录,发现其中确实也有一些斯语的条目,但是所占数量很少。

tweka2

其他那些看上去很奇怪的语言,对于 langid 来说就是“斯语”。

tweka3

真实的斯语推特文本的样子

所以只能选择放弃使用 langid 来进行语言识别(我不知道他们是如何训练斯瓦希里语的参数文件的),而从 Twitter 上真的是斯瓦希里语的那些账号的文本信息入手,看看这些文本在单词上有什么特征。找了正好也关注我推特的 Vodacom Tanzania。发现他们自己的推特信息就一部分是英文一部分是斯语的。

twek4

 

ynshen