互联网可访问内容的冗余度与资源占有的衡量| 企业工程论坛

在《》中,体会到互联网上中、英文页面存在许多大的差异。从上次调查考察的内容重复页面数量,还可推广到更一般化的指标,即互联网可访问内容资源占用比率或倍数,可理解为,在互联网上一段特定的可访问内容所占用的其它互联网资源,包括冗余度。所谓占用,是指该内容在互联网上所有的储存实例,或对其访问时总是被跟随读出的其它关联内容。冗余,则指重复的储存。

互联网上的内容(C):储存在互联网的某个服务器上,可以通过常规的互联网资源访问方式找到、读出的数据,本文主要讨论文本型的内容,即以适当的字符编码方式保存,主要目的是供人阅读的内容。

网页(p):互联网上的一个可访问资源,即通过客户端浏览器一次性打开获得的所有格式化内容。如前述“内容”中所提示,本讨论暂时忽略流媒体播放,或自动连续更新的情形,这样的网页可更明确地成为“文本内容显示网页”,本文简称内容网页。

主体内容(Cm):特定内容网页所欲传送、显示的基本文本,包括其格式化信息。我们假设一个有意义的内容网页,总是拥有主体内容。

其它内容(Co):内容网页主体内容外的所有其它内容,主要包括链接导航、相关信息推荐、广告等。一种当前常见的基本情形是这样的:网站使用某些框架结构,在具体的内容链接打开时总是会带有框架,内容展示在其中的一个子区域。这些在访问内容链接是被默认推送到客户端页面的信息,全部是“其它内容”。 Co, Cm 的大小,均可用字节数衡量。一个页面的总大小为 P =? Co + Cm

首先引入“单页主体内容比例”,以 Sr 表示,即

Sr = Co/Cm

在理想情况下,Co趋于0,Sr 的极限为0

设内容的平均重复页面数为 Rp,对某一网页 L 或其主体内容 Cm,有

Rp * P? =? Rp * (Co + Cm)

这表示了其在互联网上占用的静态资源。进一步,设

Rc = ( Rp * (Co + Cm)? – Cm ) / Cm

= Rp * ( Co/Cm + 1)? – 1

= Rp * ( Sr + 1)? – 1

Rc 反映了特定内容 Cm 与其在互联网上占用的其它资源的比例,我们可将其称为“互联网内容资源占用倍数”。可以看到,Sr 与 Rp这两个指标决定了资源占用倍数,并且同时具有相加和相乘的关系。例如以下计算:
==================================
Rp????????? Sr??????????? Rc = Rp * ( Sr + 1)? – 1
————————————————————-

1????????????? 0???????????? 0??????? (这是理想的极限值)

1????????? 0.5???????????? 0.5

1???????????? 1????????????? 1

1???????????? 2????????????? 2

7???????? 0.5????????????? 2.5

7???????????? 1????????????? 13
————————————————————-

虽然 Rp 和 Sr 都造成资源的占用,但影响并不相同。Rp 不仅占用了资源,还造成内容的冗余,从而带来同步性、内容有效性、检索效率方面的问题,并且与版权问题有密切关联。

参考文献引用格式

GB7714风格:网中一人. 互联网可访问内容的冗余度与资源占用衡量[EB/OL]. , http://www.ee-forum.org/pub/anetman/2010-01-p1068.html, 2010-01-29[2010-01-29 08:24]

Chicago风格:网中一人, "互联网可访问内容的冗余度与资源占用衡量", , http://www.ee-forum.org/pub/anetman/2010-01-p1068.html (读取于2010-01-29 08:24)

前一篇:

后一篇:

敬请回应

郑重声明:资讯 【互联网可访问内容的冗余度与资源占有的衡量| 企业工程论坛】由 发布,版权归原作者及其所在单位,其原创性以及文中陈述文字和内容未经(企业库qiyeku.com)证实,请读者仅作参考,并请自行核实相关内容。若本文有侵犯到您的版权, 请你提供相关证明及申请并与我们联系(qiyeku # qq.com)或【在线投诉】,我们审核后将会尽快处理。
—— 相关资讯 ——