主要语言文学中的标点符号是有趣的数学
片刻的犹豫...是的,这里有一个句号——但那里不应该有一个逗号吗?还是连字符会更好?标点符号可能令人讨厌;它往往被简单地忽视。错!最近的统计分析描绘了一幅不同的画面:标点符号似乎“脱胎”于所有(经过检查的)语言共享的基础,其特征远非微不足道。
对许多人来说,标点符号似乎是一种必要的邪恶,只要有可能,就应该愉快地被忽略。最近对用世界主要语言撰写的文学的分析要求我们改变这种观点。事实上,在用七种语言(主要是西方语言)写成的数百部作品中也观察到了标点符号使用模式的相同统计特征。
标点符号,其所有十个代表都可以在本文的引言中找到,事实证明,标点符号是对所研究的每种语言的数学完美的普遍和不可或缺的补充。关于单纯逗号,感叹号或句号的作用的如此显着的结论来自克拉科夫波兰科学院核物理研究所(IFJ PAN)科学家的一篇文章,该文章发表在Chaos,Solitons&Fractals杂志上。
“目前的分析是我们早期关于世界文学作品中句子长度变化的多重分形特征的结果的延伸。毕竟,什么是句子长度?它只不过是到下一个特定标点符号的距离——句号。因此,现在我们将所有标点符号都放在统计放大镜下,我们还研究了翻译过程中标点符号会发生什么,“Stanislaw Drozdz教授(IFJ PAN,克拉科夫理工大学)说。
研究了两组文本。对用七种主要西方语言写成的240部非常受欢迎的文学作品进行了每种语言中标点符号的主要分析:英语(44),德语(34),法语(32),意大利语(32),西班牙语(32),波兰语(34)和俄语(32)。这种特殊的语言选择是基于一个标准:研究人员假设不少于50万人应该说这种语言,并且用它写的作品应该获得不少于五次诺贝尔文学奖。
此外,为了研究结果的统计有效性,每本书必须包含至少1,500个用标点符号分隔的单词序列。准备了一个单独的集合来观察翻译中标点符号的稳定性。它包含14部作品,每部作品都有所研究的每种语言版本(然而,98种语言版本中的两种由于无法获得而被省略)。
这两个系列的作者总共包括康拉德、狄更斯、道尔、海明威、吉卜林、奥威尔、塞林格、伍尔夫、格拉斯、卡夫卡、曼、尼采、歌德、拉法耶特、大仲马、雨果、普鲁斯特、凡尔纳、艾柯、塞万提斯、显凯维奇或雷蒙特等作家。
克拉科夫研究人员的注意力主要集中在连续标点符号之间距离的统计分布上。很快就发现,在所有研究的语言中,最好用威布尔分布的精确定义的变体之一来描述。
这种类型的曲线具有特征形状:它首先快速增长,然后在达到最大值后,稍微慢一些地下降到某个临界值,低于该临界值,它以小且不断减小的动态达到零。威布尔分布通常用于描述生存现象(例如人口与年龄的函数关系),但也用于描述各种物理过程,例如材料的疲劳增加。
“我们在分析中包括的标点符号类型越多,标点符号之间的单词序列长度分布与威布尔分布的功能形式的一致性就越好;对于所有标记,一致性几乎是完整的。同时,不同语言之间的分布存在一些明显差异,但这些差异仅相当于为特定于所讨论语言的分布参数选择略有不同的值。因此,标点符号似乎是所有研究语言的一个组成部分,“Drozdz教授指出。
过了一会儿,他有些好笑地补充道:“......由于威布尔分布关注的是生存等现象,因此可以毫不夸张地说,标点符号本质上是一场为生存而进行的内在斗争。
分析的下一阶段包括确定危险函数。在标点符号的情况下,它描述了成功的条件概率(即下一个标点符号的概率)在分析序列中尚未出现此类标记时如何变化。
这里的结果很明显:使用标点符号倾向最低的语言是英语,西班牙语紧随其后;斯拉夫语言被证明是最依赖标点符号的语言。所研究的六种语言中标点符号的危险函数曲线似乎遵循类似的模式,它们主要在垂直偏移方面有所不同。
事实证明,德语是个例外。它的危险函数是唯一一个与为其他语言构建的大多数曲线相交的函数。因此,德语标点符号似乎结合了多种语言的标点符号特征,使其成为一种世界语标点符号。
上述观察与下一个分析相吻合,即看原创文学作品的标点符号特征在翻译中是否可见。正如预期的那样,最忠实地将标点符号从原始语言转换为目标语言的语言竟然是德语。
在口语交流中,停顿可以通过人类生理学来证明是合理的,例如需要喘口气或花点时间在脑海中构建接下来要说的话。在书面交流中?
“通过一个接一个地添加单词来创建一个句子,同时确保信息清晰明确,这有点像收紧弓弦:一开始很容易,但随着时间的流逝,要求越来越高。如果文本中没有排序元素(这就是标点符号的作用),则解释的难度会随着单词字符串的延长而增加。太紧的弓可能会断裂,太长的句子可能会变得难以理解。因此,作者面临着“释放箭头”的必要性,即用某种标点符号结束一段文本。这一观察结果适用于所有所分析的语言,因此我们正在处理所谓的语言法则,“该文章的第一作者Tomasz Stanisz博士(IFJ PAN)说。
最后,值得注意的是,标点符号的发明是相对较新的——标点符号在旧文本中根本没有出现。因此,现代书面语言中最佳标点符号模式的出现可以解释为其进化进步的结果。然而,对标点符号的过度需求并不一定是这种复杂的标志。
英语和西班牙语是当代最通用的语言,根据上述研究,对标点符号使用频率似乎不那么严格。这些语言很可能在句子结构方面非常正式,以至于需要用标点符号解决的歧义空间较小。