为什么我国的概率与统计学教科书里不怎么讲幂律分布?(转自知乎)
时间:2014-09-04 10:32:08  来源:  作者:simyjs  点击量:


转自知乎:http://www.zhihu.com/question/20313934



回答者:赵卿元





这是一个很有意思的问题。前面两位 @Angel@邹日佳的回答都有一定道理,但我认为还不够全面。上学期在研究中碰到了一些幂律分布(power law distribution),最开始的时候也碰到了一些困难。这个分布不只是在国内本科不会讲,在美国的phd课程中我目前也没有见到。我觉得这个有以下几点原因:




应用领域:前面的回答主要都是集中在这一个原因,但讲的都不是很具体。我接触到的power law distribution有这么一些情况:



  1. 幂律分布最早是由Pareto提出并研究的,主要是在经济学领域。Pareto提出了著名的80-20法则,类似的规则在互联网时代又被重新发现,例如1% rule (Internet culture)指出互联网上只有1%的用户在发布新的内容,99%的用户都只是在浏览。和物理学中常见的正态分布(更多的细节可以参见我在这个问题下的回答:为什么许多变量可以用正态分布很好地描述?)不同,大量与人有关的随机变量都呈现出重尾甚至幂律分布。我在后面会再讲一下原因。



  2. 社交网络中的关注度,例如微博上所有用户的粉丝数量大致是幂律分布的。


  3. 自然现象。一个例子是关于地震强度的GutenbergRichter law,小地震固然不断,大地震也不会少。


  4. 复杂系统的响应时间。例如我最近接触到的某网络服务的响应时间(latency)就是幂律分布的。


  5. 自然语言中单词的出现频率,参见en.wikipedia.org/wiki/Z's_law。


  6. 社会学中,人类做出某些行为的反应时间,比如一条微博从发布到分享的时间间隔,大致是幂律分布的。这一块主要是由物理学家在推动,arxiv上有一个专门的分类physics and society:arxiv.org/list/physics.


这些应用大部分还是比较冷门的,所以传统的统计学里涉及不多。但是在互联网时代出现了很多有意思的幂律分布现象,因此肯定会得到越来越多的重视。



That's Just Not Normal这篇博客中讲到了幂律分布出现的一些可能原因,我翻译一下:



Phenomena that follow a power law distribution are driven by the following dynamics:




  • Lack of natural bounding constraints to inhibit geometric growth


  • Significant growth over time leading to very large ranges of values


  • Inter-connectivity, dependency or relationships between items (typically described as a network effect)


  • Related to highly dynamic, complex systems



幂律分布出现一般出现在以下几种动态系统中:



  • 缺少自然的增长约束(例如微博的粉丝数量,不公平社会中的财富分配)


  • 在较短时间内能有快速增长(同样的例子~)


  • 系统的个体互相之间有关联,一般被称为网络效应(同上)


  • 和高动态复杂系统有关(同上)




回到题主的问题。要想很好的回答这个问题,还是得从统计学教育的角度考虑。




  • 于本科生来说,更多的侧重应该是正确的统计推断方法:在常见的一维统计问题中,如何做估计和假设检验;如何将正态分布推广到高维,以及相关的统计方法;如
    何正确的做线性回归分析;为什么要做非参数或Bayes分析;基本的统计软件应用。这些核心的知识和幂律分布交集都很少,而且幂律分布的性质可以说并不
    好,均值和方差可能都不存在,更关键的是很难和对数正态分布(log normal
    distribution)区分。对本科生来说,在课程中加入幂律分布要面临让学生更难理解的风险。



  • 对于PhD来说,有关幂律分布的研究现在还是比较粗浅的,在统计学发展的主线中也基本没有出现,理论的课不会讲。即使是在应用统计中,上面的例子也不多见,所以课程中学不到也很正常。


-------

评论中有人问如果期望和方差不存在,如何确定幂律分布。对于这个问题,首先我们要明确power law最重要的参数是幂的阶次。确定这个参数的方法有这些:

1. 最常见的是对power law的尾部画histogram,但这种方法非常容易产生误差;

2. 好一点的是做ccdf plot,这是现在最推荐的方法;

3. 要想求准确的估计幂次,最好的方法是算极大似然估计(MLE)。



具体的方法请参考这篇非常好的文献:Power law distribution in empirical data arxiv.org/abs/0706.1062。实际的例子可以看这个R package的例子:cran.r-project.org/web/



参考文献:



  1. Michael Mitzenmacher, A Brief History of Generative Models for Power Law and Lognormal Distributions uvm.edu/~pdodds/researc



  2. en.wikipedia.org/wiki/G



  3. en.wikipedia.org/wiki/Z's_law



  4. That's Just Not Normal


  5. Aaron Clauset, Cosma Rohilla Shalizi, M. E. J. Newman, Power law distribution in empirical data: arxiv.org/abs/0706.1062


  6. Colin S. Gillespie, The poweRlaw package: Examples: cran.r-project.org/web/

最近更新

点击排行