再谈佩奇等级

佩奇等级,是PageRank的翻译,也许更加文雅一点的翻译应该是佩奇秩。

我在我过去的一篇博文中提到佩奇等级:

引用率

不知不觉,11个月过去了。随后我为《新发现》写了一篇专栏文章《点击率,引用率和谷歌数》,其中谷歌数就是佩奇等级。

佩奇等级来源于1998年Lawrence Page等人写的一篇论文,题目是《The PageRank Citation Ranking: Bringing Order to the Web》,从文中看,PageRank中的Page指的是web page,但现在好多人将Page看作是该文第一作者的姓,我想这是网友们对Lawrence Page表示的敬意。Page是当时Google的CEO,现在,佩奇等级应用很广。

佩奇等级的主要想法是,不是以某网页的点击率来计算该网页的重要程度,而是以该网页得到多少链接数,以及每个链接它的网页本身的重要程度来决定该网页的重要程度,这就使得一些流氓网站利用关键词的搜索获得在搜索引擎的高排列失败。当时对Google这样的搜索引擎还是很重要的一个办法。

真正的佩奇等级的定义稍微复杂了些,我引用原文的对简单化了的一个佩奇等级的定义:

令u是某个网页。令F_u是这个网页链接过去的所有网页的集合,令B_u是所有链接u网页的网页集合。N_u=|F_u|F_u|中网页数目(也就是u网页上的链接数),取c为某个归一化常数,那么简化的u的佩奇等级R(u)

R(u)=c\sum_{v\in B_u}{R(v)\over N_v}

很明显,这是一个迭代算法。为什么不用这个看上去很好的简化了的佩奇等级呢?因为这个定义中有一个漏洞会使得迭代得不到一个肯定的结果。

上面的迭代公式可以写成矩阵形式,令A_{uv}=1/N_v,\quad 0,即当网页u被网页v链接时为1/N_v,否则为0,就有

R=cAR

R是A的本征矢量,并且是极大本征矢量(c是极大本征值)。

好了,我们不谈技术的东西了。现在谈谈Google的应用。Google将最大的佩奇等级定义为10,毫不奇怪,Google自己的佩奇等级就是10,还有一些不多的佩奇等级为10的网页。

我觉得很奇怪,为什么没有佩奇等级为10的中文网页?我觉得新浪应该是佩奇等级最高的中文网页了,它的首页的佩奇等级仅仅是7,而它的国际足球首页等级更低,才5。这个结果很奇怪,我找不到合理的解释。

同样,Google在中国的最大竞争对手百度的佩奇等级也是7。作为对比,我们常用的arXiv的主页等级是9,而SLAC的SPIRES主页的等级是8。arXiv在中国的镜像是6,也不算低了。本博客的等级是5,还算满意。我的个人主页的等级则是4。

科大交叉中心的中文主页的等级也是5,而理论所的主页等级是6-我怀疑得到了arXiv中国镜像的好处 :-)

再举一个等级是10的例子,就是我常用的观察本博客被访问情况的网站(这个博客最右下手的访问统计也来自于这个网站:http://www.statcounter.com。

我觉得佩奇等级的计算对中文网页有很大的偏见,例如,所谓中文第一博的老徐同学的佩奇等级居然是0,而牛博网首页的等级是4(小于我的博客,等于我的个人主页)。格致的等级是5。

看来还是英文博客的好处多,要么的确是人家的读者多,Lubos的等级是6,cosmic variance和not even wrong的等级都是7。

测测你的博客的佩奇等级吧:

佩奇等级在线预测

—————————————–

本来我不打算再多谈PageRank的事了,PageRank高固然可喜,低也不可自卑。但susy,mark sun和桑葚等朋友的讨论使得我多想了一会。我将回答桑葚的话附在后面吧。也许我完全是错的,希望知识更多的同学有以教我。

17.

新浪的链接自然不会太多,但老徐博客的链接很多很多,为什么她的PageRank等于0? 起码她的链接是我的千倍左右。我有来自国外的链接,她有更多。

我当然知道权重的事,参看本博文的公式。不论怎么计算,老徐博客的PageRank不会等于0,唯一的可能是中文博客的很多地址,特别是门户网站的,根本不在统计之列,还有一个比较vicious的可能是这些网站开始的赋值就是0。

至于你说“另外,不只是链接数目的问题。不同网页的链接对待不同,本身网页排名高的链接更可靠,于是给这些链接予较大的权重。”,参看我的博文的开头。

谢谢你给的链接,可惜他的很多话不过是我给出的那个公式的罗嗦解释。

我觉得陈辉给出的那个链接

The Chinese Site With Highest PageRank

中的一句话很有意思,这句话是:

Google says “PageRank relies on the uniquely democratic nature of the web” and “Google interprets a link from page A to page B as a vote” - alas, we all know what democracy and vote mean in China.

什么意思呢?是不是Google学会了中国人的办法,将所谓的democracy和vote 零化了? 我们是不是可以将”we all know what democracy and vote mean in China.” 变成“we all know what democracy and vote mean with Google when it comes to blogs in Chinese.

你是一个纯粹的人,我是一个多心的人,but, 世界是复杂的。至少我认为老徐博客真正的PageRank远远高于我的,使得我怀疑0值的奇怪来源。

以上那段话是什么意思呢?一,我觉得即使是科学化的计量如PageRank,不免掺杂了竞争的因素,所以变得不那么科学了,甚至很丑陋了。二,我们中国和外面的世界在信息这个大世界还没有一体化,中国需要继续努力,不要以为自己信息产业已经很发达了。不论是因为自己没有足够国际化的原因,还是人家不带我们玩的原因,我们都得正视这件事,而不能关起门来自己玩。

我顺便公布一下我得到的链接数吧。根据technorati的统计,我有441个链接。但是,technorati在计算我的博客的排名时,只用了131个。我是互联网盲,不知道这是什么意思,有兴趣的不妨去

这里

看看。

这个链接排列是根据权威来的,排在最前面的是来自桑葚的链接,其次是变态家族、奇迹笔记、我自己、格致、脑力劳动……

而且,似乎没有一个是来自新浪博客的,但是我知道我有不少新浪博客的链接。可怜的新浪,被老外鄙视了。同学们看看其中有没有来自你们的,如果你们加了我的链接,但在这个列表中找不到你的博客,恭喜你,你也被老外鄙视了 :-)

文章 《再谈佩奇等级》 已有 37 篇评论

页: « 1 [2] 显示所有评论

  1. 18 桑葚

    先简单回一下,老徐博客的 pagerank 是 6 啊。

  2. 19 李淼

    你输的地址是http://blog.sina.com.cn/xujinglei吗? 我用这个输入我给出的链接还是得0。

  3. 20 李淼

    桑葚:

    刚才用陈辉给的地址,也是得0。

    BTW,通过technorati的统计,所有链接我的博客的网页中,你的权威最高,见我上面给的链接。

  4. 21 桑葚

    我似乎知道问题所在了。我输入的链接是:

    http://blog.sina.com.cn/m/xujinglei

    这是一直来老徐博客的链接,在google上搜索老徐博客,就到这个链接。
    似乎现在新浪更换了一下地址,省略了其中的 m。一个新地址,所以 pagerank 变成 0 了。

    好了,不想再谈老徐博客了,成追星族了。:)

  5. 22 CWB

    在太阳系大行星的卫星系统中,是否也存在满足提丢斯-波得定则的情况?

    (在这里问问题会有人回答吗?)

  6. 23 李淼

    CWB:

    谁懂这个应该会回答的。

    桑葚:

    用老的地址,似乎还是0。

    nunia同学:

    你来过吧?

  7. 24 CWB

    李淼 :
    您能不能尝试回答一下?
    材料(转载):提丢斯-波得定则(Titius-Bode law),简称“波得定律”,是关于太阳系中行星轨道的一个简单的几何学规则。 它是在1766年德国的一位中学教师戴维·提丢斯(Johann Daniel Titius,1729~1796)发现的。后来被柏林天文台的台长波得(Johann Elert Bode)归纳成了一个经验公式来表示。

    这个公式可以表述为:

    a = \frac{n+4}

    其中

    n = 0, 3, 6, 12, 24, 48…(后一个数字为前一个数字的2倍)

    现代的公式把a作为行星到太阳的平均距离(天文单位):

    a = 0.4 + 0.3\times k

    其中k=0,1,2,4,8,16,32,64,128 (0以后数字为2的2次方)

    这个公式可以表述为:在0.4上各加以0.0,0.3,0.6,1.2……等数,便得各行星和太阳之间的平均距离,单位是天文单位。

    许多小行星就是根据这个定律去寻找而发现的。但海王星和冥王星的距离和按这一定律推得的数值相差很大。

    其具体数据如下:

    行星 公式推得 值实测值

    水星 0.4 0.39

    金星 0.7 0.72

    地球 1.0 1.00

    火星 1.6 1.52

    小行星带 2.8 2.9

    木星 5.2 5.20

    土星 10.0 9.54

    天王星 19.6 19.18

    海王星 38.8 30.06

    冥王星 77.2 39.44

  8. 25 桑葚

    难道不同地方看到的不一样? //puzzled
    http://www.123cha.com/

    google_pagerank/

    ?q=blog.sina.com.cn%2Fm%2Fxujinglei

  9. 26 李淼

    桑葚:

    这次的确是6,我也不明之前为什么是0。

    CWB:

    我可不是这方面的专家,我猜想天王星和冥王星可能受到的摄动太大。

  10. 27 shanqin

    CWB.你问的是以太阳为出发点还是各行星本身?
    如果以太阳为出发点进行距离分析,卫星处于环绕行星的状态,比如木星的卫星掩食,距离就很可观,当年罗默就是根据这个猜测光速有限,且Huygens就依此计算出光的速度(为现在值的三分之二.),因此,由于卫星环绕行星运动,导致与太阳距离有最大和最小值,因此不会存在Titius-Bode law,如果把卫星与对应行星距离忽略,那么卫星的”Titius-Bode law”就是行星的Titius-Bode law,问题就没有意义,另外,如果这样的话,木星的所有卫星不是都在同一点了?所以还是没有意义.

    如果距离分析的出发点是行星,那么一样没有意义,地球就一个卫星,哪来”Titius-Bode law”?

  11. 28 wangyi

    问李老师或者陈辉师兄一个问题:我用Firefox的插件“sage”收取这个博客的rss feed时,以前是正常的,这两天却只有“comment feed”可用,也就是每一个comment当作一个单独的feed,以前每一篇博文当作一个单独feed的rss不见了。不知是我机器配置的问题还是博客系统改变出的问题。

  12. 29 李淼

    wangyi:

    等陈辉来回答你吧,我是网络盲。

  13. 30 CWB

    shanqin:
    谢谢您的回答(我一开始的猜测是假设大行星可能存在有多个卫星的情况下……)

    另外这个问题出自”世界物理年——寻找“爱因斯坦”的问题”中”拓展提高类课题”第一道.
    详见
    http://cwb1988521.blog.163.com/blog/

    static/2560612720072281933476/

    (貌似留下了点嫌疑)

  14. 31 Hui

    wangyi,

    是最近一篇帖子的问题,在文中有《The PageRank Citation Ranking: Bringing Order to the Web》这个题目,李老师在复制粘贴这个题目时在”Ranking”字母g后面多了一个十六进制为02的单字节,这个blog用的是UTF-8代码,而这个02单字节无法在UTF-8中正常显示(比如我的Linux系统中就无法”正常”显示这个02单字节,显示为一个方框,我不知道在Windows下情况如何),也无法被rss阅读器正常识别(当阅读器读到这个02单字节时出错,不再继续阅读剩余部分)。

    我帮李老师把那个02单字节删除了,现在应该一切恢复正常。

  15. 32 呵呵

    现在这个博客主页的页面有点不正常(比如右边的文字信息全都没有),不知是我电脑的原因,还是博客页面的原因。

  16. 33 李淼

    右边的文字信息有,可能被挤到下面去了,原因是有些跟帖中出现了网络地址太长。如果电脑屏幕够大,就不会有这个问题。还有,如果用firefox,也没有问题。我去修改一下跟帖。

  17. 34 呵呵

    现在正常了。我的电脑可是宽屏的呐:-)

  18. 35 s5s5

    文章中说的中文PR值比较低应该是GOOGLE对中文分词技术还不太完美吧,所以不敢给太高的PR,太高的话在中文分词还不完美的情况下很容易被人作弊,国外的英文就没有分词这个技术障碍,所以PR高~

  19. 36 s5s5

    另外,他的算法除了外链数,就是别人链接你的数,还有链接你的网页的PR值~
    还有一个是你自己所写的内容是不是人无我有,或者同一种内容,你比别人出现的早,长期这样积累就会有一个比较好的PR值了,呵呵~

  20. 37 李淼

    s5s5

    2007年3月23日, 星期五 9:13:55 修改

    文章中说的中文PR值比较低应该是GOOGLE对中文分词技术还不太完美吧,所以不敢给太高的PR,太高的话在中文分词还不完美的情况下很容易被人作弊,国外的英文就没有分词这个技术障碍,所以PR高~

    ----------

    也许是的。

页: « 1 [2] 显示所有评论

发表评论

在评论中使用LaTeX的方法