您现在的位置: 学淘宝 >> 文章中心 >> 淘宝学堂 >> 正文

第二部分 调查说明

作者:佚名    文章来源:不详    点击数:    更新时间:2007-7-7


一、 调查对象  中国(不包括香港、澳门、台湾地区)所有已注册域名的网站,包括.COM, .NET, .ORG和所有.CN域名下的所有网站。  二、 调查内容  表1:中国互联网络信息资源调查指标体系    三、 调查时间  调查实施时间:2005年12月~2006年2月,数据截止日期为2005年12月31日。  四、 限制说明  1. 中国互联网络信息资源定义为:中国互联网络上公开发布的网页和在线数据库的总和。  2. 中国互联网络是指所有域名注册单位属于中国大陆的网站总和。  3. 在线数据库是指以Web为界面,提供公共检索的收费或免费的数据库。  4. 网站是指有独立域名的Web站点,其中包括CN域名和通用顶级域名(gTLD)下的Web站点。 此处的独立域名指的是每个域名最多只对应一个网站WWW+域名。 如:对域名cnnic.cn来说,它只有一个网站www.cnnic.cn,并非它有whois.cnnic.cn、mail.cnnic.cn……等多个网站,它们只被视为网站www.cnnic.cn的不同频道。  5. 商业网站是指对公众提供互联网信息服务,以网上虚拟业务为主的网站;企业网站是指通过网站对自己的产品进行宣传,而业务主要是在网下进行的以实体业务为主的网站。其他公益性网站主要指除教育科研外的医疗、图书馆、博物馆等提供公益性服务的网站。  6. 网页搜索是指对抽取的网站从其首页(WWW+域名)开始搜索,通过网页上的层层链接,抓取所有属于该网站的网页的特征及其文本内容。  7. 静态网页是指URL中不含?和输入参数的网页,包括:*.htm、*.html、*.shtml、*.txt、*.xml等。  8. 动态网页是指URL中含?或输入参数的网页,包括:ASP,PHP,PERL,CGI等在Server方进行处理的网页。  9. 网页的编码形式:是根据网页本身的信息通过分析得到的,不是通过一篇网页在HTML中的声明来判断的。因为大量国内的英文网页在其HTML声明中都是简体中文。  10. 网页的内容形式:是通过文件后缀获得的。关于图像、音频、视频的文件后缀定义标准参考MIME标准。  11. 网页的更新情况:网页的更新时间是指网页的最后更新日期与当前时间之间的时间差。  12. 考虑到抽样调查的可操作性,本次调查暂不包括香港、澳门及台湾的互联网络信息资源状况及海外中文网络信息资源状况。  五、 调查方法  一、总体界定:  按照上述的关于中国互联网络信息资源的定义,将目标总体定义为“全国范围内以Web形式公开提供服务的网站”。  为了调查的方便,将总体分为两个部分:  子总体A:中国大陆(不包括香港、澳门、台湾地区)所有已注册域名的网站,包括.COM, .NET, .ORG和.CN域名(含ORG.CN,GOV.CN等)下的所有网站。  子总体B:中国大陆(不包括香港、澳门、台湾地区)未注册域名的网站。  考虑到子总体B的网站数量较少,在本次调查过程中予以忽略。以下所述内容均针对子总体A。  二、调查方法:  整个调查以抽样调查和电话访问的方式为主,通过抽样调查对全国的互联网络信息资源的状况做一个全面的了解。部分网页相关指标通过计算机程序搜索获得。  三、抽样调查:  (一)抽样指标  在确定分层后各层的样本量以及用各层样本数据推断全国数据时,我们考虑的指标是“网站数量”。  (二)目标量分类  总量:比如说总体中拥有在线数据库的网站数等;  比例:本调查的总体目标量大部分都是以比例的形式出现的。  (三)样本量  在置信度为95%,最大允许绝对误差为3%时,综合考虑设计效应等因素,设计样本量为2200个,本次电话调查实际得到的有效网站样本数为2208个。  (四)抽样方法  本次调查抽样所采用的样本框为2005年中国信息产业部开展的全国互联网站集中备案工作所得到的全国备案网站数据库,主要采用等距抽样的方法来抽取样本,方法如下:  步骤1:排序  采用网站所在省份主为关键词,备案时间为次关键词进行升序排列。省份编码如下:  步骤2:抽取样本  排序后的网站编号依次为1、2、3、…、M(M为全部备案网站的数目)。如果需要抽取的样本网站数量为n,取T=Round(M/ n),抽取规则如下:首先随机从1到T中选出一个数S,那么编号为P=S+k*T(k=0、1、2、3、…、n-1) (M为全部备案网站的数目)的网站即为被抽取的样本网站(当P>M时,取P=P- M)。  步骤3:获取样本相关资料  将以上步骤所抽取的样本网站及其相关信息(包括:网站名称、网站域名、网站所在地、网站联系人、联系电话、E-mail等)存为Excel工作表文件。格式如下:  将所有抽取数据合并即成为调查所需样本。  步骤4:访问过程和搜索过程  根据所抽取样本的联系人及联系电话,对样本进行电话访问。先询问网站的一些基本情况,然后根据网站的不同类型进行不同网站的详细情况的调查,之后询问各种网站共同的内容和在线数据库的内容。  上述的问卷调查过程可获得网站、在线数据库的相关特征、影响等指标。网页特征的相关指标,可通过网络搜索系统对网站进行搜索获得。  (五)结果估计  由于样本抽取采用的是等距抽样方法进行的,因此整个样本可视为近似的自加权样本,采用简单随机样本的公式对估计量进行计算。同时可对结果以各类网站数占网站总数的比例作为权重进行事后加权以校正误差。  六、 组织单位  1、主持单位:  国务院信息化工作办公室  2、实施单位:  中国互联网络信息中心(CNNIC)  3、协助单位(按汉语拼音字母排序):  百度在线网络技术(北京)有限公司  北京大学网络实验室  北京东方网景信息科技有限公司  北京搜狐在线网络信息服务有限公司  北京万网新兴网络技术有限公司  北京信诺立兴业网络通信技术有限公司  北京新网数码信息技术有限公司  北京中企网动力数码科技有限公司  厦门华商盛世网络有限公司  厦门三五互联科技有限公司  厦门中资源网络服务有限公司  中国教育与科研计算机网网络中心

  • 上一篇文章:
  • 下一篇文章:
  •  

    相关文章

    | 设为首页 | 加入收藏 | 联系站长 | 友情链接 | 版权申明 | 网站地图 |
    Copyright © xuetaobao.com Inc. All rights reserved. 学淘宝 版权所有
    服务专线:(86)631-5804555 Email: 5804555@gmail.com