2016年末总结

尽量短。无事,学术精进不多,参加了几场会议,截图

关于自己的新编斯汉词典项目
■ APP化完成,截图
■ 网站保持收支平衡
■ 继续公开2013年的手稿,用图说话

收录量从2780涨到4026

收录量从2780涨到4026

上传了三年还有63%没完结。2011-13效率比现在高太多。

上传了三年还有63%没完结。2011-13效率比现在高太多。

希望2017年有更多的希望。

2016年12月31日,于汉堡

(制图 http://www.barchart.be)

 

过圣诞节

眼看着无神论者要开始过圣诞节了,心情特别紧张,就像过情人节的时候没有女朋友。

记得小的时候母亲会带我去保罗堂过平安夜,听兄弟姊妹们唱赞美诗,手里拿着歌词的传单,勉勉强强听懂唱的内容,特别尴尬。但对教会印刷物并不陌生,因为每个周末的时候总是能拿到短篇的圣经故事,我也确实是把它们当做故事来读的,亚伯拉罕、雅各、大卫、所罗门。在肯尼亚做交换那半年,一位鲁沃族(Luo)的好朋友对我把圣经比作故事书或历史书的做法非常不满意,他觉得圣经写的故事是没有时间限制的。当然,他对圣经也有自己的理解方式,比如他觉得圣经中并没有关于人一定要一夫一妻的描述。

… 

 

整理其他项目的原始文件

每个研究者的数据都有自己的归档方法,所以使用别人的数据库其实没那么简单:每个研究者都有自己的研究领域和课题,不会专门为他人把数据以对方想要的方式整理好。

所以干活之前要思考几个问题,对于当前课题来说 a) 最重要的数据到底是什么,b) 以什么样的分析方法比较容易实现运算,c) 怎么样可以足够精确地引用到数据,又不会影响运算。

今年九月份的时候 赫尔辛基斯瓦希里语语料库1 发布了第二版(以下简称HCS2.0),版权是CC的(署名、非商业性使用、相同方式共享),说明页面下载页面,再强调一下,版权所有者是 Arvi Hurskainen 教授和赫尔辛基大学。

新版里多了两个部分的档案,一部分是2009-2015坦桑尼亚(少量是肯尼亚)的报纸杂志档案,另一部分是2004-2006坦桑尼亚议会的会议记录。有点可惜的是,可能是由于版权问题,所以每篇文章的句子都随机打乱了顺序2,如果是研究上下文衔接的领域,这份语料库可能就没有太大的用处了。

hcs2-0

上面这幅图显示的是档案库的结构,HCS2.0使用了文件夹加文档(一篇文档一个文件)的结构,这种档案结构其实非常适合采用 AntConc 去做分析(定位关键词位置和相关的搭配),但是如果要对文件进行大规模的全文分析和写入操作时,这种档案结构就很麻烦了。

所以我想把一个文件夹里的所有文件组合到一个文件,但是依旧希望最早的档案被写入在这个文档的最前面。具体步骤是:

  1. 一个一个读取文件,分析metadata,生成新文件,以“年份-月份-日期”为文件名
  2. 根据日期一个一个读取文件,合并到一个文件里

最后的结果是:

hcs2modi

  1. Helsinki Corpus of Swahili []
  2. “The corpus text was randomly shuffled document-internally.” – Arvi Hurskainen []