尽量短。无事,学术精进不多,参加了几场会议,截图
关于自己的新编斯汉词典项目:
■ APP化完成,截图
■ 网站保持收支平衡
■ 继续公开2013年的手稿,用图说话
希望2017年有更多的希望。
2016年12月31日,于汉堡
(制图 http://www.barchart.be)
尽量短。无事,学术精进不多,参加了几场会议,截图
关于自己的新编斯汉词典项目:
■ APP化完成,截图
■ 网站保持收支平衡
■ 继续公开2013年的手稿,用图说话
希望2017年有更多的希望。
2016年12月31日,于汉堡
(制图 http://www.barchart.be)
眼看着无神论者要开始过圣诞节了,心情特别紧张,就像过情人节的时候没有女朋友。
记得小的时候母亲会带我去保罗堂过平安夜,听兄弟姊妹们唱赞美诗,手里拿着歌词的传单,勉勉强强听懂唱的内容,特别尴尬。但对教会印刷物并不陌生,因为每个周末的时候总是能拿到短篇的圣经故事,我也确实是把它们当做故事来读的,亚伯拉罕、雅各、大卫、所罗门。在肯尼亚做交换那半年,一位鲁沃族(Luo)的好朋友对我把圣经比作故事书或历史书的做法非常不满意,他觉得圣经写的故事是没有时间限制的。当然,他对圣经也有自己的理解方式,比如他觉得圣经中并没有关于人一定要一夫一妻的描述。
每个研究者的数据都有自己的归档方法,所以使用别人的数据库其实没那么简单:每个研究者都有自己的研究领域和课题,不会专门为他人把数据以对方想要的方式整理好。
所以干活之前要思考几个问题,对于当前课题来说 a) 最重要的数据到底是什么,b) 以什么样的分析方法比较容易实现运算,c) 怎么样可以足够精确地引用到数据,又不会影响运算。
今年九月份的时候 赫尔辛基斯瓦希里语语料库1 发布了第二版(以下简称HCS2.0),版权是CC的(署名、非商业性使用、相同方式共享),说明页面,下载页面,再强调一下,版权所有者是 Arvi Hurskainen 教授和赫尔辛基大学。
新版里多了两个部分的档案,一部分是2009-2015坦桑尼亚(少量是肯尼亚)的报纸杂志档案,另一部分是2004-2006坦桑尼亚议会的会议记录。有点可惜的是,可能是由于版权问题,所以每篇文章的句子都随机打乱了顺序2,如果是研究上下文衔接的领域,这份语料库可能就没有太大的用处了。
上面这幅图显示的是档案库的结构,HCS2.0使用了文件夹加文档(一篇文档一个文件)的结构,这种档案结构其实非常适合采用 AntConc 去做分析(定位关键词位置和相关的搭配),但是如果要对文件进行大规模的全文分析和写入操作时,这种档案结构就很麻烦了。
所以我想把一个文件夹里的所有文件组合到一个文件,但是依旧希望最早的档案被写入在这个文档的最前面。具体步骤是:
最后的结果是: