为什么我国的概率与统计学教科书里不怎么讲幂律分布？（转自知乎）

时间：2014-09-04 10:32:08 来源：作者：simyjs 点击量：

转自知乎：http://www.zhihu.com/question/20313934

回答者：赵卿元

这是一个很有意思的问题。前面两位 @Angel和 @邹日佳的回答都有一定道理，但我认为还不够全面。上学期在研究中碰到了一些幂律分布(power law distribution)，最开始的时候也碰到了一些困难。这个分布不只是在国内本科不会讲，在美国的phd课程中我目前也没有见到。我觉得这个有以下几点原因：

应用领域：前面的回答主要都是集中在这一个原因，但讲的都不是很具体。我接触到的power law distribution有这么一些情况：

幂律分布最早是由Pareto提出并研究的，主要是在经济学领域。Pareto提出了著名的80-20法则，类似的规则在互联网时代又被重新发现，例如1% rule (Internet culture)指出互联网上只有1％的用户在发布新的内容，99%的用户都只是在浏览。和物理学中常见的正态分布（更多的细节可以参见我在这个问题下的回答：为什么许多变量可以用正态分布很好地描述？）不同，大量与人有关的随机变量都呈现出重尾甚至幂律分布。我在后面会再讲一下原因。

社交网络中的关注度，例如微博上所有用户的粉丝数量大致是幂律分布的。

自然现象。一个例子是关于地震强度的GutenbergRichter law，小地震固然不断，大地震也不会少。

复杂系统的响应时间。例如我最近接触到的某网络服务的响应时间(latency)就是幂律分布的。

自然语言中单词的出现频率，参见http://en.wikipedia.org/wiki/Zipf's_law。

社会学中，人类做出某些行为的反应时间，比如一条微博从发布到分享的时间间隔，大致是幂律分布的。这一块主要是由物理学家在推动，arxiv上有一个专门的分类physics and society：http://arxiv.org/list/physics.soc-ph/recent。

这些应用大部分还是比较冷门的，所以传统的统计学里涉及不多。但是在互联网时代出现了很多有意思的幂律分布现象，因此肯定会得到越来越多的重视。

That's Just Not Normal这篇博客中讲到了幂律分布出现的一些可能原因，我翻译一下：

Phenomena that follow a power law distribution are driven by the following dynamics:

Lack of natural bounding constraints to inhibit geometric growth

Significant growth over time leading to very large ranges of values

Inter-connectivity, dependency or relationships between items (typically described as a network effect)

Related to highly dynamic, complex systems

幂律分布出现一般出现在以下几种动态系统中：

缺少自然的增长约束（例如微博的粉丝数量，不公平社会中的财富分配）

在较短时间内能有快速增长（同样的例子～）

系统的个体互相之间有关联，一般被称为网络效应（同上）

和高动态复杂系统有关（同上）

回到题主的问题。要想很好的回答这个问题，还是得从统计学教育的角度考虑。

对
于本科生来说，更多的侧重应该是正确的统计推断方法：在常见的一维统计问题中，如何做估计和假设检验；如何将正态分布推广到高维，以及相关的统计方法；如
何正确的做线性回归分析；为什么要做非参数或Bayes分析；基本的统计软件应用。这些核心的知识和幂律分布交集都很少，而且幂律分布的性质可以说并不
好，均值和方差可能都不存在，更关键的是很难和对数正态分布(log normal
distribution)区分。对本科生来说，在课程中加入幂律分布要面临让学生更难理解的风险。

对于PhD来说，有关幂律分布的研究现在还是比较粗浅的，在统计学发展的主线中也基本没有出现，理论的课不会讲。即使是在应用统计中，上面的例子也不多见，所以课程中学不到也很正常。

－－－－－－－

评论中有人问如果期望和方差不存在，如何确定幂律分布。对于这个问题，首先我们要明确power law最重要的参数是幂的阶次。确定这个参数的方法有这些：

1. 最常见的是对power law的尾部画histogram，但这种方法非常容易产生误差；

2. 好一点的是做ccdf plot，这是现在最推荐的方法；

3. 要想求准确的估计幂次，最好的方法是算极大似然估计(MLE)。

具体的方法请参考这篇非常好的文献：Power law distribution in empirical data http://arxiv.org/abs/0706.1062。实际的例子可以看这个R package的例子：http://cran.r-project.org/web/packages/poweRlaw/vignettes/examples.pdf。

参考文献：

Michael Mitzenmacher, A Brief History of Generative Models for Power Law and Lognormal Distributions http://www.uvm.edu/~pdodds/research/papers/others/2003/mitzenmacher2003a.pdf

http://en.wikipedia.org/wiki/Gutenberg%E2%80%93Richter_law

http://en.wikipedia.org/wiki/Zipf's_law

That's Just Not Normal

Aaron Clauset, Cosma Rohilla Shalizi, M. E. J. Newman, Power law distribution in empirical data: http://arxiv.org/abs/0706.1062

Colin S. Gillespie, The poweRlaw package: Examples: http://cran.r-project.org/web/packages/poweRlaw/vignettes/examples.pdf

最近更新

点击排行