Benford定律

有一次组会前我遇到北大的马伯强老师,问他何以有那么大兴致聊天,原来他在介绍Benford定律和他在这方面相关的工作。

什么是Benford定律?百度百科这么说:

 
1935年,美国的一位叫做本福特的物理学家在图书馆翻阅对数表时发现,对数表的头几页比后面的页更脏一些,这说明头几页在平时被更多的人翻阅。

本福特再进一步研究后发现,只要数据的样本足够多,数据中以1为开头的数字出现的频率并不是 1/9,而是30.1%。而以2为首的数字出现的频率是17.6%,往后出现频率依次减少,9的出现频率最低,只有4.6%。

本福特开始对其它数字进行调查,发现各种完全不相同的数据,比如人口、物理和化学常数、棒球统计表以及斐波纳契数列数字中,均有这个定律的身影。

1961年,一位美国科学家提出,本福特定律其实是数字累加造成的现象,即使没有单位的数字。比如,假设股票市场上的指数一开始是1000点,并以每年10%的程度上升,那么要用7年多时间,这个指数才能从1000点上升到2000点的水平;而由 2000点上升到3000点只需要4年多时间;但是,如果要让指数从10000点上升到20000点,还需要等7年多的时间。因此我们看到,以1为开头的指数数据比以其他数字打头的指数数据要高很多。

马伯强老师对我介绍道,全世界200个左右国家地区,如果我们看面积的第一个数字出现的频率,1到9也遵守Benford定律,同样,这些国家地区的人口的第一个数字也遵守Benford定律,这是一件很奇妙的事情。

我们看看wiki是怎么介绍Benford定律的:

Benford’s law, also called the first-digit law, states that in lists of numbers from many (but not all) real-life sources of data, the leading digit is distributed in a specific, non-uniform way. According to this law, the first digit is 1 almost one third of the time, and larger digits occur as the leading digit with lower and lower frequency, to the point where 9 as a first digit occurs less than one time in twenty. This distribution of first digits arises whenever a set of values has logarithms that are distributed uniformly, as is approximately the case with many measurements of real-world values.

This counter-intuitive result has been found to apply to a wide variety of data sets, including electricity bills, street addresses, stock prices, population numbers, death rates, lengths of rivers, physical and mathematical constants, and processes described by power laws (which are very common in nature). The result holds regardless of the base in which the numbers are expressed, although the exact proportions change.

It is named after physicist Frank Benford, who stated it in 1938, although it had been previously stated by Simon Newcomb in 1881.

有人可能会问,如果我们改变单位制呢?Benford定律恰恰是因为改变单位制而分布不变所引起的对数律。有人会继续问,如果我们改变进位制呢?例如8进位而不是10进位,甚至是2进位?Benford定律在不同进位制下的准确的表述是,在b进位制中,首位数字取d(=1,……, b-1)的几率是

P(d)=\log_b (d+1)-\log_b d=\log_b(1+1/d)

这个定律可以用来检查是否有人做了假账。通常的账本会满足Benford定律,而做了假账的账本不满足,4和5出现的频率更大,而不是1。

马伯强老师和他的学生邵立晶最近在这方面写了三篇文章,他们发现了:

1、强子的宽度遵守这个定律(文章见这里)。

2、脉冲星的重心周期满足修正的Benford定律。

3、统计物理的三个重要分布,Boltzmann-Gibbs分布,Bose-Einstein分布,Fermi-Dirac分布,也基本上满足Benford定律。

转发到新浪微博

相关阅读:

  1. 上帝的启示
  2. 三人成虎
  3. An outline of string theory
  4. 萨氏叮你论
  5. 在《物理》上即将刊出的一篇文章

关于 李淼

中国科学院理论物理研究所研究员
此条目发表在 理论物理 分类目录。将固定链接加入收藏夹。

Benford定律》有 61 条评论

  1. 歪鸟 说:

    忽然想,可不可以倒过来想,把一组数据的首位统计一下,做个拟合曲线出来,就可以得知产生这组数据的变量的增长曲线到底是什么样子?

  2. wwww 说:

    看到各位看法,我觉得、、、、唔、、、、中国物理学怪不得那么差!!!!

  3. 康华岳 说:

    李老师好,我上次的问题,你有空了就简明扼要地说几句吧! 今天本同学发来新旧混合帖,试着解释一下————为何汉字看久了就觉得不认识了,希望可以让大家放松一下!

    松鼠会 去年写的
    (基本是原文 风格啊哈哈)
    我30分钟前猛然想到了,“语音”问题和“意义”问题是问题的核心!由于不习惯太早就睡,刚才在家里看《水浒传》,刚看到林冲见了店小二,林马上就要上有危险了。猛然想到咱的邮件里说的汉字问题,琢磨了片刻,积蓄已旧的一个模糊的意识又撞上心头。 大家注意,夜深人静十分千万别太早睡了,大好良机,不用来思考就是对它的亵渎!
    话扯远了,(想到DW成俊哥语气)。

    1:记住:所有的一切对人来说都只不过是“感觉”(好象也是叔本华的“表象”,看咱多牛,哲学,见笑),语言是抽象层次的,人所比较独有的“第二级信息反馈系统”(貌似这个说法,偶尔翻过《现代汉语词典》)这个比较厉害啦啦,(看过几眼施拉姆的《传播学概述》)人进化出的这个“抽象系统”很是了得。

    2:语言产生的根本特点就是“信息”的抽象化处理,语言产生时(当然是指各位和我这样的小小地球人的“语言”了)最主要的途径就是“声音”和“意义”的结合的固定,一定数量的颇为可观的大致的“声音—意义”的“某种意识和感觉”的一一对应模式的形成就标志着原始人语言形成的开始。{此为“声音系统”的进化(姑且叫它“进化”吧)}

    3:图象——图形——意义——声音。(最重要的是我们口口声声不厌其烦地强调的所谓的“意义”与图形的联系的确立。)

    4:(几乎)每一种((地球)人类的)语言都有“声音”(美其名曰“语音”)。最要命的是,无论你说汉语(我的母语、我的伟大的母语,我的伟大的我的祖国)还是英语、德语、法语等等等等、等等等等等语,你都[将(/会)]无可奈何地使用“声音”(先天聋哑人的可能例外)——————更更更更要命的是,无论你是男的女的老的少的,(死的活的?)无论在何时何地,无论你开口闭口,只要阁下一去“思考”(更好的是“复杂点儿的”思考),好,这便成了。
    在你的意识之中,便有个声音,而且无论是普通话还是我们河南南阳社旗的土话方言还是别的,定然有个“声音”,四下无人、夜半更深,更是静呀静,你的声音便提醒了你,“你在思考,你在‘存在’”(我思故我在,OH GOOD GUT ABEND,I think,therefore I am.)

    5:你可能提笔忘字,但你不会忘掉那个字的“声音”“发音”“语音”。这说明,汉语是一门以声音为主的地球人儿的语言,(恭喜你看到这里,自豪吧,是我写到这里了)。
    汉语系统中的语言的“意义”更多地(“和”不爽)且根本地依赖于其“发音”。

    6:符号系统的问题。 “整体意义扫描——符号只是帮助记忆————甚至完全可以忽略符号”,文盲者,所谓睁眼瞎也,然其仍而能良好地运用语言,他/她的母语!

    综上所述,图象、符号只是帮助记忆“语言”,“人的主体意识”更关心能使其效率达到较高水平的“声音——意义识别”方式,进而把资源让给了这种模式。生存选择等等等… …

    今晚用写的
    :汉字符识别难手机博客杂谈

    去年发到松鼠会评论里的一个,(好像是《陌生的汉字》后的)我当时只解释了表层机制,但未想到去解

    释为何在意识中思维时是“声音”的感觉,而非“光线”等。刚才看旧博文想到此事,很简单,是“声响

    ”的能量大,对类人猿什么们的大脑的刺激更强烈。
    印象更深刻,记忆更深刻,所以“声音”被选作抽象思维中加载信息的形式,(被和相关的行为事件:“

    意义”加强联系),久之进化保留下来了。故,“声音”的感觉在(多数人的)抽象思维意识的活动中享

    有优先启动权。
    而文字符号就很一般,因为是后来才让“仓颉”创字帮助记忆的,是人主观有意追加的,而“口语”“语

    音”作为信息交流和意识思维的模式已然被使用很久啦~~故很多人瞪着汉字(估计数学什么的符号亦是

    )看一会儿不认识了,因那是浮光略影表层记忆且未深究之。
    故大众的抽象思维的交流方式是以语音(口语、即大家在一起的“说话行为”)交流占绝大多数,因效率

    比较高。故很少见到有朋友整天靠写字和别人交流思想(情书等而外,但真谈恋爱时也是说得多,结婚后

    同),故有QQ语音聊天,有急事打电话说!而非用短信。

  4. Ising 说:

    这个很奇妙!回头看看我们的研究方向(统计物理的一个分支)符不符合这个定律

  5. 十三 说:

    呃,这个……
    定律之前有看过,不过,老师您的主旨,是最后几句吗~

  6. tangyilei 说:

    刚看到科学网上所谓“美夸克”,请问李大师,“美夸克”是什么东西啊?(beauty quark)

  7. nk 说:

    时间是什么? 是个量,还是个参照物? 还有光是什么? 我们人类能看到的被称之为"光"的物质(暂且用物质来形容)是怎么发生的? 又是被什么推动达到30W/s公里的? 光速就是能量流动的速度的一种表现形式吗? 而时间就正好是那个推动源吗?

  8. 苏打六 说:

    这个定律很有趣,不知能否在量子信道分析中加以应用。记下来记下来,呵呵。

  9. 张晓宇 说:

    这个有趣的问题其实很简单,不明白:只缘身在其山中。
    因为:人认识自然数字都是从小向大认识的,小数字出现的概率当然就大,看书都是从前朝后看的。源于习惯。
    假如,你看书从后向前翻,善于反向思维,这个规律就不适应你。

    建议:搞理论物理的也要多关注一下哲学,哲学对理论物理帮助很大。
    这也是牛顿为啥要研究宗教的原因。

发表评论

电子邮件地址不会被公开。 必填项已被标记为 *

*

您可以使用这些 HTML 标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

重要! 为了防止spam,请在下面输入正确答案才能提交
9 + 5 等于多少?
Please leave these two fields as-is: