2009年10月17日星期六

中文Twitter的信息量是英文的2到8倍 zz

微博客Twitter限制每条信息不能超过140个字符。如果Twitter设置的是140UTF-8字节,那么中文tweet和英文之间应该没什么区别,因为每个中文字形要占据3个字节,而英文字形只有1个字节。但Twitter计算的是字符,而不是字形。因此140个英文字符表达的信息有限,而140个中文字符完全可以当成一篇短小的博文了。然而,中文Twitter的信息量是否就相当于英文的2到3倍呢?台湾的Perl开发者唐凤(Audrey Tang)进行了一番有趣的研究中文),她将3条中文tweet翻译成英文,这些中文tweet包括了一般的白话文、半文半白和文言文,在将中文字符数和翻译后的英文字符数对比后,她发现中文的信息量是英文的2到8倍,其中当以文言文信息量最高。

标签:


评论: 发表评论

订阅 博文评论 [Atom]





<< 主页

This page is powered by Blogger. Isn't yours?

订阅 博文 [Atom]