(三)农村个体选择模型设定及模型识别
如前文所述,获得农民工进城务工预期持续时间 需要估计一个计数变量的样本选择模型:
,ln(μi)=Γiβ+εi,migi=1(Λiγ+vi>0),vi=λεi+ξi
其中,ysmi代表观测到的进城持续时间,由于ysmi是以年为单位的正整数,一个合理的假设是其服从泊松分布。μi代表ysmi的均值;Γi为影响农民工i移民时间的特征变量;εi~N(0,σε2)。migi表示农村个体i(包括农民工和农村居民)是否选择进城务工(是=1,否=0);Λi为影响该个体i是否移民的特征变量;vi~N(0,σν2)。由于不可观测的个体特征,进城务工的个体留在城镇的移民持续时间可能与没有进城务工的个体存在系统性差异。因此,我们假设vi与εi相关。其中,ξi与εi不相关且ξi~N(0,1)。λ代表相关性。定义ρ=corr(νi,εi)。④若ρ显著不为0,则进城务工的个体留在城市的移民持续时间确实与没有进城务工的个体存在系统性差异,此时就需要对样本选择问题进行纠正。ρ可能在两个方向上显著区别于0:信贷约束的存在使得较为贫穷的个体更加不易移民(MacKenzie,2004),而一旦克服信贷约束的障碍,移民以后在外打工的时间则可能较长,此时ρ <0;另一方面,越是偏好进城的个体越是容易移民,移民以后在外打工的时间也可能越长,此时ρ >0。因此,我们不能预期ρ的符号。
个体i观测值出现的概率密度为:
其中,f(ysmi,migi=1)表示进城务工的农民工i选择留在城镇ysmi年的概率密度,Pr(migi=0)表示农村户口的个体i选择不进城务工的概率密度。而1(migi=0)、1(migi=1)为示性函数,当括号内条件成立时为1,反之为0。对于式(3)右侧的第一部分,有:
f(ysmi,migi=1)=f(ysmi)×Pr(Λiγ+vi>0|ysmi)
由于εi服从正态分布,我们使用Gauss-Hermite quadrature逼近上式中的积分。且有μi=exp(Γiβ+εi)。对于式(3)右侧的第二部分,容易得到:
对式(3)取对数并加总,可以得到对数似然函数如下:
lnL=∑lnf(ysmi, migi)=∑[1(migi=1)×lnf(ysmi, migi)+1(migi=0)×Pr(migi=0)]
使用数值优化方法最大化上述对数似然函数,可以得到参数{β,γ,λ,σε}的估计值。通过将移民时间的选择方程、农村个体是否移民的选择方程中的残差项标准化为N(0,1)分布,模型设定中的所有参数均可识别。由于模型识别不需要额外的排他性约束条件,Γi和Zi可以由完全相同的变量构成(Heckman,1978;Wilde,2000)。而除了工资方程中的控制变量以外,Γi和Zi还需包括与移民时间相关而与工资不直接相关的外生变量。在实际计算中,我们选用如下三个变量:(1)是否受过农业培训,(2)老家小时工的工资,(3)老家村中农民工的比例。其中,(1)、(2)衡量了移民的机会成本,(3)则代表了移民选择的示范效应。
在得到参数估计值的基础上,可以对农民工样本计算其进城务工的预期持续时间:⑤
四、数据及变量描述统计
本文的实证研究基于中国家庭收入调查项目(China Household Income Project Surveys,CHIP) 2007年的数据。该调查由三个部分组成,分别是:农村住户调查、城镇住户调查和流动人口调查。其中,城镇住户调查和流动人口调查范围覆盖了全国9个省15个城市,各5007户家庭。基于本文的研究问题,我们将样本限制在20—65岁之间且有工作的劳动者中,并且排除自我创业的个体;⑥其中城镇部分只包括城镇户籍的样本,流动人口部分只包括了城镇地区农村户籍的样本,并且排除移民持续时间大于25年的少数观测。在剔除了在家庭儿童数目和学生数目、社区信息以及小时工资的信息上存在异常的样本后,我们最终获得8588个有效的样本观测值。表1和表2列出了变量的描述统计。
表1 变量描述统计I
变量名 | 样本量 | 均值 | 标准差 | 最小值 | 最大值 | 单位 | 变量含义或计算公式 |
农民工 | 8588 | 0.46 | 0.50 | 0.00 | 1.00 | 1=农民工;0=城镇职工 | |
小时工资 | 8588 | 12.97 | 21.87 | 0.50 | 291.67 | 元/小时 | 月平均工资/(4×周工时) |
其中,城镇职工 | 4675 | 18.21 | 28.38 | 0.50 | 291.67 | ||
农民工 | 3913 | 6.71 | 3.95 | 0.63 | 90.91 | ||
移民持续时间 | 3913 | 8.38 | 5.48 | 1 | 25 | 年 | 第一次外出务工算起的时间 |
工作经验 | 8588 | 9.54 | 9.05 | 0 | 49 | 年 | 开始从事该职业算起的时间 |
女性虚拟变量 | 8588 | 0.42 | 0.49 | 0 | 1 | 1=女性;0=男性 | |
汉族虚拟变量 | 8588 | 0.99 | 0.12 | 0 | 1 | 1=汉族;0=少数民族 | |
学龄前儿童数目 | 8588 | 0.14 | 0.35 | 0 | 2 | 家庭中学龄前儿童的总数 | |
在校学生数目 | 8588 | 0.35 | 0.53 | 0 | 3 | 家庭中在校学生的总数 | |
健康状况 | 8588 | 1.93 | 0.73 | 1 | 4 | 1=非常好;2=好;3=一般;4=较差 | |
婚姻状况 | 8588 | 1.38 | 0.77 | 1 | 3 | 1=已婚/同居;2=离婚/丧偶;3=未婚 |
从表1可以看出,样本中农民工占比为46%,且农民工的平均移民持续时间为8.38年。此外,整体小时工资的平均水平为12.97元/小时;而城镇职工的平均小时工资为18.21元/小时,远远高于农民工的6.71元/小时。表2则给出了城镇职工和农民工的学历水平结构。总体而言,城镇职工的高学历占比远远大于农民工:城镇职工中大学及以上学历占比高达45.4%,而农民工中这一比例只有4.9%;同样地,城镇职工中高中学历占比达35.2%,而农民工中只有22.8%;相反,农民工中初中学历占比较高,为53.4%,而城镇职工只有17.4%;小学及以下学历在农民工中的占比同样有18.9%,而城镇职工中,只有2.1%的人为小学及以下学历。
表2 变量描述统计Ⅱ
小学及以下 | 初中 | 高中 | 大学及以上 | |
城镇职工 | 2.1% | 17.4% | 35.2% | 45.4% |
农民工 | 18.9% | 53.4% | 22.8% | 4.9% |
表3 不同学历的农民工小时工资随着移民持续时间增加的变化
移民时间 | 总体 | 小学及以下 | 初中 | 高中 | 大学及以上 |
1—5年 | 6.31 | 4.95 | 6.15 | 6.68 | 8.49 |
6—10年 | 6.82 | 5.56 | 6.58 | 7.96 | 9.26 |
11—15年 | 7.00 | 5.73 | 7.03 | 7.89 | 10.76 |
16—25年 | 7.24 | 6.49 | 7.17 | 8.42 | 15.80 |
增长率 | 14.8% | 30.9% | 16.6% | 26.1% | 86.1% |
城镇职工 | 18.21 | 15.15 | 18.47 | 18.42 | 18.08 |
注:增长率定义为相对1—5年而言,16—25年的平均小时工资的增长率。
本文的重点在于研究农民工的工资是否随着移民持续时间的增加逐渐向城镇居民同化。表3列出了不同学历的农民工小时工资随着移民持续时间增加的变化情况。由表3可以看出,在不同的学历水平上,农民工的小时工资均低于同样学历水平的城镇职工,并且工资差距随着移民持续时间的增加逐渐减少。譬如总体而言,移民持续时间为1—5年的农民工平均小时工资为6.31元/小时;移民持续时间为6—10年的农民工则为6.82元/小时;随着移民持续时间的增加,小时工资进一步上涨,移民持续时间达11—15年的农民工的小时工资也上涨为7.00元/小时;而对移民持续时间最长,即达16—25年的农民工而言,小时工资上涨到了7.24元/小时。进一步地,我们计算了相对于移民持续时间为1—5年的农民工,移民持续时间达到16—25年的农民工小时工资的增长率。结果显示,总体增长率达14.8%。分学历来看,大学及以上学历的农民工小时工资增长率最高,达86.1%;小学及以下学历的农民工小时工资增长率次之,为30.9%;高中学历和初中学历的农民工小时工资增长率则相对较低,分别为26.1%和16.6%。
五、农民工工资同化的实证估计结果
(一)OLS回归结果
表4列出了不同模型设定下式(1)的OLS回归结果,被解释变量为对数小时工资。从表中可以看出,在控制了工作经验后,所有设定中移民时间对于农民工的工资均有稳定的正向作用,并且均在1%的水平上显著。如前文所述,表3证实了与城镇居民相比,除由于经验增加引起的工资上涨外,农民工在城镇多待一年,小时工资将会有“额外”上升。因此,随着移民持续时间的增加,农民工的小时工资将显著地向具有相同特征的城镇职工同化。
模型一仅将对数小时工资对农民工的虚拟变量及其他控制变量进行了回归。结果表明,与现有文献相符,在控制了其他个体特征后农民工的工资比城镇职工少32.3%。模型二则进一步在设定中加入了移民持续时间。结果显示出较强的工资同化模式:与具有同样个人特征的城镇职工相比,农民工刚进城的初始小时工资低48.9%;而随着移民时间增加,农民工与城镇职工工资差距逐渐缩小。具体而言,相对相同特征的城镇职工,农民工在城镇多待一年,相对工资将上升1.6个百分点。模型三则进一步在回归中加入了农民工虚拟变量与学历水平虚拟变量的交互项,允许不同学历农民工的初始工资不同。结果显示,在控制了其他个人特征的基础上,小学及以下学历的农民工与同等学历水平城镇职工工资差距最大,高达68.8%;初中学历的农民工与城镇职工工资差距与小学及以下学历相比没有显著差别;高中学历的农民工与城镇职工工资差距则显著降低,为44.6%;大学及以上学历的农民工与城镇职工工资差距进一步缩小到28.4%。在这一设定下,农民工的工资同样以1.7%的增长率显著向城镇职工同化。
表4 移民时间对农民工和城镇职工工资差距的影响:OLS回归
模型一 | 模型二 | 模型三 | ||||
农民工 | -0.323*** | (0.033) | -0.489*** | (0.039) | -0.688*** | (0.139) |
农民工×移民持续时间 | 0.016*** | (0.002) | 0.017*** | (0.002) | ||
农民工×初中学历 | 0.129 | (0.145) | ||||
农民工×高中学历 | 0.243* | (0.141) | ||||
农民工×大学及以上 | 0.404*** | (0.145) | ||||
工作经验 | 0.009* | (0.005) | 0.003 | (0.005) | 0.005 | (0.005) |
工作经验2 | -0.001*** | (0.000) | -0.001*** | (0.000) | -0.001*** | (0.000) |
常数项 | 2.038*** | (0.112) | 2.060*** | (0.113) | 2.224*** | (0.173) |
样本量 | 8588 | 8588 | 8588 | |||
R2 | 0.087 | 0.089 | 0.091 |
注:括号中为稳健标准差:*、**和***分别表示在10%、5%和1%的水平上显著。以下各表同。被解释变量为对数小时工资。受篇幅限制,没有列出其他控制变量的回归系数。使用到的其他控制变量包括:受教育程度、性别、婚姻状况、省份、民族、家中学龄前儿童数量、家中在校学生数量和健康状况。以下表6、表9同。
(二)校正样本选择偏差回归结果
1.第一阶段回归结果
如前文所述,本文在这部分使用农村居民和农民工数据,估计了一个计数变量的样本选择模型,以此获得农民工潜在务工时间的一致估计。表5给出了第一阶段回归的结果。⑦由表5可得出如下三个方面的结论:首先,ρ显著大于0。由前文可知,ρ是否显著不为0反映了进城务工的个体留在城市的时间与没有进城务工的个体是否存在系统性差异。我们可以利用似然比检验来对ρ的显著性做出判断(Miranda & Rabe-Hesketh,2006)。表5给出了ρ的估计值及似然比检验的结果;可以看出,ρ在1%的水平上显著大于0,这意味着移民的选择与移民持续时间的选择是正相关的。其次,我们选用的排他变量(exclusive variable),即农业培训虚拟变量、老家小时工工资(对数)及老家村中农民工比例在移民持续时间选择方程和移民选择方程中基本全部显著,反映这些变量的有效性。具体而言,老家小时工工资越高,移民的可能性越小,而移民后在城镇待的时间越长;老家村中农民工比例越高,移民的可能性越大,而移民后在城镇待的时间也越长;而受过农业培训会显著极大地降低移民的可能性,但是对于移民后在城镇待的时间长短的影响并不显著。最后,其他控制变量在两个选择方程中也几乎全部显著,并且其符号与直观感觉相符。特别地,大学及以上学历对于移民的选择及移民持续时间的选择均有显著为负的影响,这意味着农村居民的进城务工行为可能是一种负选择,与Knight & Song(2003)以及Guang&Lu(2005)的研究结论相一致。⑧
表5 第一阶段回归:计数变量的样本选择模型
(1) | (2) | |||
农业培训虚拟变量 | -0.040 | (0.066) | -0.983*** | (0.138) |
老家小时工工资(对数) | 0.059*** | (0.019) | -0.669*** | (0.059) |
老家村中农民工比例 | 0.221*** | (0.039) | 5.657*** | (0.127) |
初中学历 | 0.019 | (0.019) | 1.436*** | (0.055) |
高中学历 | -0.065*** | (0.022) | 0.115** | (0.049) |
大学及以上学历 | -0.331*** | (0.040) | -1.778*** | (0.062) |
年龄 | 0.154*** | (0.007) | 0.052*** | (0.016) |
年龄2 | -0.002*** | (0.000) | -0.001*** | (0.000) |
女性虚拟变量 | -0.174*** | (0.014) | -0.306*** | (0.039) |
汉族虚拟变量 | 0.133*** | (0.052) | -0.478*** | (0.113) |
学龄前儿童数目 | 0.052*** | (0.019) | -0.650*** | (0.053) |
在校学生数目 | 0.019 | (0.014) | -0.621*** | (0.032) |
健康状况 | 0.006 | (0.009) | -0.147*** | (0.026) |
婚姻状况 | -0.093*** | (0.010) | -0.025 | (0.035) |
常数项 | -1.062*** | (0.172) | 1.577*** | (0.420) |
样本量 | 21368 | |||
σε2 | 0.385 | |||
ρ | 0.145 | |||
似然比检验ρ=0:Х2(1)=2238.96;Prob≥Х2=0.000 |
2.第二阶段回归结果
表6给出了第二阶段的回归结果。可以看出,在校正了样本选择问题后,农民工的工资仍旧显著向具有相同特征的城镇职工同化。与模型二类似,模型四中我们将对数小时工资对农民工的虚拟变量、农民工与调整的移民持续时间交互项以及其他控制变量进行了回归。结果显示,与具有同样个人特征的城镇职工相比,农民工刚进城的初始小时工资要低50.0%;而随着移民持续时间的增加,农民工与城镇职工的工资差距逐渐缩小。农民工在城镇每多待一年,相对工资将上升1.8个百分点。模型五则进一步放松了假设,允许不同学历农民工的初始工资不同。与模型三的结果一致,在控制了其他个人特征的基础上,小学及以下学历的农民工与同等学历水平城镇职工工资差距最大,高达77.3%;初中学历的农民工与城镇职工工资差距与小学及以下学历相比没有显著差别;高中学历的农民工与城镇职工工资差距则显著降低,为52.3%;大学及以上学历的农民工与城镇职工工资差距进一步缩小到34.0%。同样地,在模型五的设定下,农民工和城镇职工的小时工资随着移民持续时间的增加显著缩小。其工资同化速度为2.5%。因此,实证估计的结果与式(1)预期高度相符:δ0显著为负,而δ1为显著正。
作者: 西南财经大学经济与管理研究院 陈珣 西南财经大学经济学院 徐舒 来源: 《经济研究》2014年第10期