转自知乎:http://www.zhihu.com/question/20313934
回答者:赵卿元
这是一个很有意思的问题。前面两位 @Angel和 @邹日佳的回答都有一定道理,但我认为还不够全面。上学期在研究中碰到了一些幂律分布(power law distribution),最开始的时候也碰到了一些困难。这个分布不只是在国内本科不会讲,在美国的phd课程中我目前也没有见到。我觉得这个有以下几点原因:
应用领域:前面的回答主要都是集中在这一个原因,但讲的都不是很具体。我接触到的power law distribution有这么一些情况:
-
幂律分布最早是由Pareto提出并研究的,主要是在经济学领域。Pareto提出了著名的80-20法则,类似的规则在互联网时代又被重新发现,例如1% rule (Internet culture)指出互联网上只有1%的用户在发布新的内容,99%的用户都只是在浏览。和物理学中常见的正态分布(更多的细节可以参见我在这个问题下的回答:为什么许多变量可以用正态分布很好地描述?)不同,大量与人有关的随机变量都呈现出重尾甚至幂律分布。我在后面会再讲一下原因。
-
社交网络中的关注度,例如微博上所有用户的粉丝数量大致是幂律分布的。
-
自然现象。一个例子是关于地震强度的Gutenberg Richter law,小地震固然不断,大地震也不会少。
-
复杂系统的响应时间。例如我最近接触到的某网络服务的响应时间(latency)就是幂律分布的。
-
自然语言中单词的出现频率,参见http://en.wikipedia.org/wiki/Zipf's_law。
-
社会学中,人类做出某些行为的反应时间,比如一条微博从发布到分享的时间间隔,大致是幂律分布的。这一块主要是由物理学家在推动,arxiv上有一个专门的分类physics and society:http://arxiv.org/list/physics.soc-ph/recent。
这些应用大部分还是比较冷门的,所以传统的统计学里涉及不多。但是在互联网时代出现了很多有意思的幂律分布现象,因此肯定会得到越来越多的重视。
That's Just Not Normal这篇博客中讲到了幂律分布出现的一些可能原因,我翻译一下:
Phenomena that follow a power law distribution are driven by the following dynamics:
-
Lack of natural bounding constraints to inhibit geometric growth
-
Significant growth over time leading to very large ranges of values
-
Inter-connectivity, dependency or relationships between items (typically described as a network effect)
-
Related to highly dynamic, complex systems
幂律分布出现一般出现在以下几种动态系统中:
-
缺少自然的增长约束(例如微博的粉丝数量,不公平社会中的财富分配)
-
在较短时间内能有快速增长(同样的例子~)
-
系统的个体互相之间有关联,一般被称为网络效应(同上)
-
和高动态复杂系统有关(同上)
回到题主的问题。要想很好的回答这个问题,还是得从统计学教育的角度考虑。
-
对
于本科生来说,更多的侧重应该是正确的统计推断方法:在常见的一维统计问题中,如何做估计和假设检验;如何将正态分布推广到高维,以及相关的统计方法;如
何正确的做线性回归分析;为什么要做非参数或Bayes分析;基本的统计软件应用。这些核心的知识和幂律分布交集都很少,而且幂律分布的性质可以说并不
好,均值和方差可能都不存在,更关键的是很难和对数正态分布(log normal
distribution)区分。对本科生来说,在课程中加入幂律分布要面临让学生更难理解的风险。
-
对于PhD来说,有关幂律分布的研究现在还是比较粗浅的,在统计学发展的主线中也基本没有出现,理论的课不会讲。即使是在应用统计中,上面的例子也不多见,所以课程中学不到也很正常。
-------
评论中有人问如果期望和方差不存在,如何确定幂律分布。对于这个问题,首先我们要明确power law最重要的参数是幂的阶次。确定这个参数的方法有这些:
1. 最常见的是对power law的尾部画histogram,但这种方法非常容易产生误差;
2. 好一点的是做ccdf plot,这是现在最推荐的方法;
3. 要想求准确的估计幂次,最好的方法是算极大似然估计(MLE)。
具体的方法请参考这篇非常好的文献:Power law distribution in empirical data
http://arxiv.org/abs/0706.1062。实际的例子可以看这个R package的例子:
http://cran.r-project.org/web/packages/poweRlaw/vignettes/examples.pdf。
参考文献:
-
Michael Mitzenmacher, A Brief History of Generative Models for Power Law and Lognormal Distributions http://www.uvm.edu/~pdodds/research/papers/others/2003/mitzenmacher2003a.pdf
-
http://en.wikipedia.org/wiki/Gutenberg%E2%80%93Richter_law
-
http://en.wikipedia.org/wiki/Zipf's_law
-
That's Just Not Normal
-
Aaron Clauset, Cosma Rohilla Shalizi, M. E. J. Newman, Power law distribution in empirical data: http://arxiv.org/abs/0706.1062
-
Colin S. Gillespie, The poweRlaw package: Examples: http://cran.r-project.org/web/packages/poweRlaw/vignettes/examples.pdf