识别一份文本的所属语言

导师 S 介绍了一个项目让我知道,是关于使用 Python 抓取一些德语的 Twitter 信息,项目维护者是 Tatjana Scheffler。导师 S 建议我用来抓取一些斯瓦希里语(以下简称斯语)的信息。

我最感兴趣的却是 Tweepy 这套脚本是如何将 Twitter 中特定语言文本抽取出来的(不理会英文文本)。

Tweepy 使用的是 Langid(作者 Marco Lui)。测试了一下。中间花了时间装 numpy。

langid-swahili

结果是,实际上 Langid 并不支持斯瓦希里语,我推测这套脚本可能只支持一些欧洲语言。很可惜。

 

ynshen