三数据与研究方法_数字治理评论（第1辑）-QQ阅读男生中文历史网

上QQ阅读APP看书，第一时间看更新

三数据与研究方法

（一）分析单位与数据来源

本文的分析单位为中国的地级市，包括省会城市和副省级城市（计划单列市），而不包括直辖市和县级市。之所以选择地级市作为研究对象和分析单位，是因为这些城市之间的可比性较强，且相关数据较为齐整，并有利于同已有研究相对照。

本研究的数据有多个来源，可以避免共同方法/来源偏误。有关各个城市政务微博的竞争力数据，是基于新浪微博数据的合成指数，评估时间为2016年全年（人民网舆情监测室，2017）。有关自变量的数据主要来自《中国城市统计年鉴》中的2015年各城市数据，与因变量相比滞后一期以避免因果关系反转。有关人口特征的变量主要使用2010年全国人口普查数据。有关各城市电子政务的数据来自2015年政府网站绩效评估的综合指数（中国软件评测中心，2016）。

表1 主要变量的定义与测量指标

资料来源：人民网舆情监测室、中国软件评测中心、《中国城市统计年鉴》、中国人口普查数据。

（二）因变量的测量

已有研究通常使用政务微博账号的受欢迎程度（popularity）、粉丝的忠诚度（commitment）、账号的传播力（virality）三个指标来衡量其互动程度（engagement）。受欢迎程度通过每个微博被点赞的平均次数来衡量，忠诚度通过每个微博被评论的平均次数来衡量，而传播力则通过每个微博被转发的平均次数来衡量。将上述三项指标再除以微博账号的总粉丝数，就使政务微博的互动力不受粉丝规模的影响（Bonsón &Ratkai,2013）。但是这是对单个账号进行评估，如果要评估某个地区的政务微博总体情况，则需要将上述指标予以加权平均。

人民网舆情监测室利用新浪微博数据开发的地区政务微博竞争力评估框架，从传播力、服务力和互动力三个维度评估后进行加权合成。传播力主要从微博的阅读总次数、活跃的政务微博账号总数及其占账号总数的比重等指标评估。服务力则从政务微博账号主动回复评论的总次数、发布的微博总数、发布的原创微博总数、回复网友“@”的总次数及其占网友“@”总数的比重、向用户发私信的总数及其占用户私信总数的比重等指标来衡量。互动力的衡量指标包括用户转发微博、评论微博和点赞的总次数（均将垃圾用户予以排除）。上述三项指标及总指数的取值范围都是0～100，取值越大说明竞争力越强（人民网舆情监测室，2017）。

从政务微博与民众的互动关系来看，微博本身的影响和互动主要包括阅读、点赞、评论、转发等；账号的互动则包括私信、“@”、关注（粉丝）等。与已有研究仅关注微博被点赞、评论和转发的情况相比，新浪微博的评估体系更加全面。但是，新浪微博的竞争力同政务微博的规模（如账号总数和用户数量）存在较大关联，因此这些规模因素需要在研究中予以控制。

（三）自变量的测量

财政健康状况的计算公式是：（预算财政收入-预算财政支出）/预算财政支出。电子政务发展状况使用城市政府网站绩效总分，有关各城市电子政务的数据来自2015年政府网站绩效评估的综合指数（中国软件评测中心，2016）。城市的行政级别是以地级市为参照组，设置省会城市和副省级城市（下文及表2、表3中简称为“省会”和“副省级”）的虚拟变量。政府规模使用常住人口总数（万人）来衡量，并取对数。互联网渗透率指城市宽带用户接入家庭总数/人口总数（%）。手机普及率指手机用户总数/人口总数（%）。两个指标高度正相关（r=0.76, p＜0.01），我们使用因子分析将其合并为一个微博使用率指数（Cronbach's α=0.506，特征值=1.76，方差累计解释率为88.02%）。城市人口的平均受教育年限指人口受教育的平均年数。对于青年人口的定义，本文参考2017年4月中共中央和国务院印发的《中长期青年发展规划（2016-2025年）》对青年的界定，年龄范围是14～35周岁。本文按照人口普查的标准，城市青年人口比例指15～34周岁的人口占总人口的比重（%）。人均GDP指城市区域生产总值除以人口总数（万元/万人），并取对数。上述城市数据来自2015年的《中国城市统计年鉴》和2010年中国人口普查数据。

（四）模型设定

本研究使用的数据为截面数据，因变量为连续变量，可以使用基于普通最小二乘法（OLS）的回归模型进行假设检验。因变量为非负且限值（≤100）的连续数据，也可以使用Tobit模型进行估计。但是，两个模型的估计结果基本一致，所以我们使用OLS模型，因为其便于解释回归模型的估计结果。考虑到地级市是嵌入在各个省份的，因此我们报告了在省份层面调整的稳健标准误，以降低异方差等估计偏误。