「郭志刚:人口统计研究中方法的误用与滥用」正文
内容提要:人口统计的方法和技术是帮助人们从数量上分析和认识人口现象的有力工具。但是,倘若运用不当,即使是科学的方法和技术,也有可能得出错误的结论,甚至会成为谬误的护身符。近年来,人口研究中误用或滥用统计分析方法的现象经常出现,并已影响到人口统计的严肃性和人口分析的准确性。文章以新近采用P/F比方法检验中国2010年第六次全国人口普查生育数据的一项研究为例,具体说明如果统计方法使用不当,特别是若无视方法内在包含的前提假定,便会得到误导性的结论。因此,人口研究中应当谨防方法的误用与滥用。
关键词:人口统计P;F比方法;方法适用性
一、问题的缘起
人口统计学一直被认为是擅于量化的一门社会科学学科,建立了相当完善的对生育、死亡、迁移等基本生命事件进行统计分析的方法和技术。人口学专业人才培养中必定需要开设人口统计学课程,对相关人口统计方法和技术进行专门训练。正是借助于这些方法和技术,人口学研究者们才能得以对人口现象进行科学严谨的统计分析,揭示其背后的规律,人口学研究才能得以不断繁荣和发展。
从方法论上讲,任何模型、方法和技术都有其适用条件,或者说都包含内在的假定条件,只不过这些假定会存在或强或弱的差别。比如,近年来国内外人口学者关于进度效应对时期总和生育率影响的讨论提供了一个重要启示,就是当一个人口进入低生育率状态时,生育时机的改变会对常规总和生育率计算结果产生不可忽略的影响,从而显著扭曲其作为终身生育水平估计的功能。因此,Bongaarts等(1998)提出去进度效应总和生育率指标,以避免仅看总和生育率指标而得到误导性的认识。实际上,现有人口统计中有不少方法和技术都建立在稳定人口这个基本假定之上,特别是那些被称为间接估计的方法和技术。然而时至今日,很多发达国家,甚至像中国等不少发展中国家,其人口仍处于迅速转变时期,生育水平和存活水平仍在不断变化,明显是一种非稳定人口状态。换言之,这种人口现实与稳定人口在特征和属性上迥异,导致以往很多人口统计方法失去了应用的基础。所以,今天我们对“新常态”下的人口现象进行统计分析时,一个必须加以考虑的问题就是所用的人口模型、方法和技术是否仍合时宜?
人口统计方法虽然是定量分析和认识人口现象的有力工具,但倘若运用不当,即使是科学的方法也有可能得出错误的结论。近年来,人口研究中误用或滥用统计方法的现象屡见不鲜,已经严重损害了人口统计的严肃性和人口分析结论的可信度。为此,本文以陈卫、杨胜慧(2014)用P/F比方法检验中国2010年第六次全国人口普查(以下简称六普)生育数据的研究为例,具体说明对处于“新常态”下的中国人口现象进行研究时,必须考虑所用技术方法的适用条件,尽量避免统计方法的误用或滥用,尽量避免得出误导性的错误结论。
二、案例文章中的错误
陈卫、杨胜慧(2014)采用P/F比方法检验了中国六普的生育数据。该文使用的是国际著名人口学家提出的成熟方法(Brass等,1968),而且未借助任何其他来源数据,仅使用“系统内”的2010年人口普查数据对生育率结果做了评价,发现六普生育统计的P/F比值在20~24岁到35~39岁之间各年龄组上都保持着较为平稳一致的值,即均在1.4左右。该文将这种结果解读为,在过去的15年里,中国的生育水平一直变化平稳,没有出现进一步的下降趋势。于是,这个比值1.4便可以表明六普收集的时期生育数据有严重漏报,导致其公布的总和生育率低报了40%。然后,他们再用这个比值作为调整系数对六普生育率结果加以调整,将六普总和生育率从公布的1.18提高到1.66。然而,对这一结论笔者感到不解。笔者承担过国务院人口普查办公室委托的六普生育分析课题(郭志刚,2014),研究结果不仅发现六普总和生育率比五普相应统计(1.22)又略有降低,而且六普数据还能反映出这种变化有着多种社会经济和人口原因。比如,21世纪前10年中,年轻一代的受教育程度有所提高;随着城镇化进程的加快,农村人口结婚和生育年龄明显推迟。城镇人口的婚育年龄早就处于不断推迟之中,2005-2010年,农村妇女的婚育年龄也出现了显著的变化。六普结果表明,20~35岁农村未婚女性比例明显提高,尤其是22~25岁,未婚比例提高均在10个百分点以上。此外,农村育龄妇女进城的比例已非常大。2000年和2010年全国人口普查表明,城镇化比例分别为36.9%和49.7%。育龄妇女人口城镇化比例分别达到40.7%和54.2%。而20~30岁生育旺盛期妇女城镇化比例更高,2010年六普时已达到56.8%。这些重要的变化不仅导致六普生育水平的降低,也导致生育年龄模式发生重大变化。
P/F比方法的应用条件不仅要求生育水平稳定,而且要求生育模式稳定。陈卫、杨胜慧(2014)对此假定条件也有明确交代①,但该文仅凭六普数据的各年龄组P/F比值平稳一致便断定过去15年生育率变化平稳,完全没提及文献中关于近年中国生育模式变化的研究结果,自己不去具体分析中国生育模式是否有所变化,也没有认真分析六普的P/F比值的平稳会不会出于其他原因,就简单地将该指标结果作为调整漏报影响的系数。该文发表时仅用六普生育数据P/F比分析一个孤例,没有将中国1982、1990和2000年三次全国人口普查(以下简称三普、四普、五普)数据也进行同样的分析。按说有了对六普分析的计算模板,其他三次普查的各相应队列的曾生子女数和时期年龄别生育率统计都是现成的,只要套入计算程序很容易得出结果,但该文却没有进行这些分析。该文中还有其他一些评论或结论也是在论证不足情况下的唐突断言,难以令人信服。比如,该文显然很赞同“没有充分理由认为2010年普查开展时的社会环境和普查的登记办法,能够使2010年普查质量比2000年普查更好”的观点。但笔者觉得这种论证及结论均有些不可思议,因为现实是2000年以后社会经济迅速发展,教育水平提高,城镇化推进,因而城乡婚育模式有显著的变化。此外,2005年1%人口抽样调查试行了流动人口在户籍地和现住地双重登记,就是为了减少漏报。而六普延续了这种登记方法,在其他方面也采用很多办法来提高数据收集质量。有些学者居然视而不见,这不能不说是一种成见或偏见。近20年来,时期总和生育率不断走低,已远低于更替水平,甚至低于生育政策的要求。越来越多的学者认识到这种低生育水平已经不能简单归结为生育政策限制的结果,在很大程度上是出于社会环境的变化。然而,在各方面都迅速变化的总形势下,一部分人口学者却坚持认为社会环境没有变化,生育水平和生育模式也没有变,那么超生数量和比例也没有变,因而生育或出生的漏报和瞒报的必要性也不会变。但是,笔者认为这种推理逻辑难以成立,其实真正没变的是这些学者观察现实的眼光与思维。
多年来,一些人口学者一看到调查数据与其他登记数据之间存在差别,或者某种调查数据内部之间的统计结果存在差异,不管各个系统的数据收集特点不同、服务目的不同、统计口径不同,便简单归结为调查数据漏报,而且一律按数大为准的标准来评判质量。陈卫、杨胜慧(2014)也是这样,一看到普查数据的低龄妇女组的曾生子女数小于计算相应年龄组生育率时所用的出生数,便认为不合逻辑,立刻视为出生漏报。实际上,只要认真查询便不难发现,普查低龄妇女组的曾生子女数小于前12个月内妇女的生育数本是正常的,因为这两种生育数的统计口径不一样。另外,陈卫、杨胜慧(2014)断定,“现在看来,无论使用什么数据和方法,2000年的生育率②不会低于1.5”,并且认为,“在上面所述的2010年普查和2000年普查得到的生育率类似,且从社会环境和普查登记办法看都没有支持2010年普查数据质量比2000年普查更好的证据的情况下,我们也有理由认为2010年普查的生育率不会低于1.5。”然而,该文一开始对中国普查生育率的类型出现概念错判,继而出现计算操作不当,最后又出现方法逻辑上混淆不清,因此其所有计算结果和推论也都失去了合理性。
笔者重新研读了方法创建者的原文献,不仅计算了三普、四普、五普和六普的P/F值,还收集了其他一些人口的生育数据做了试算。尽管这些数据未必完美,试算结果也不一定都可靠,但是,试算可以帮助我们更好地理解P/F比方法背后的理论和逻辑,也可以增加一些实际感悟,再经过分析和归纳,大致可以得出P/F比方法并不适用于六普生育数据的结论。狭义的原因是由于几十年来中国的生育水平和生育模式一直在显著变化。广义的原因是该方法并不适用于生育水平很低的人口。因此,根据P/F比方法得到的六普生育率间接估计并无实际参考价值。
下面笔者将分几个方面来报告自己应用P/F比方法的试算结果和其他相关分析的发现。
三、五普和六普的不同生育统计口径
若以普查生育数据作为分析研究的对象,首先研究者应当做到十分熟悉普查生育数据的统计口径。由于P/F比实际上是将相应年龄组妇女的曾生子女数与累计年龄别生育率相比,所以此类研究需要认真考察在中国人口普查中是如何定义年龄别曾生子女数的,特别是如何计算年龄别生育率的,比如年龄组如何定义,各年龄组的妇女人数和出生人数又如何定义,不同的定义计算出的年龄别生育率统计结果是不一样的。陈卫、杨胜慧(2014)断定,“对于任何年龄组,都应该是曾生子女数大于出生人数,因为出生人数只是普查前一年的出生人数,而曾生子女数确是③普查前多年来的累积的出生人数。理论上有可能存在这两者相等的情况,但实际上应该是曾生子女数大于出生人数,而绝对不可能出现曾生子女数小于出生人数的情况。”基于这种认识,该文过早地下了结论,认为大多数人口普查或小普查数据中都出现过15~19岁育龄妇女组曾生子女统计数显著小于生育率计算中相应年龄组的出生子女数是不合逻辑的现象,是“绝对不可能出现”的情况。其实,陈卫、杨胜慧(2014)已做出判断,认为这一统计现象是出生漏报导致的不正常的统计结果。
根据笔者多年对人口普查生育数据进行研究的经验,陈卫、杨胜慧(2014)指出的这种不匹配现象确实常常出现,但却是普查统计中的正常现象。这首先涉及普查生育统计的年龄口径问题。人口普查公布曾生子女数和普查前一年生育率时虽然都按年龄组(包括一岁组和五岁组)提供,但必须注意,这两种统计表中年龄的含义实际上并不相同。平均曾生子女数表格中的年龄组是按普查标准时点上妇女确切年龄划分的,这个概念很简单。而生育数据表中的年龄却是时期概念,即在普查前一年中暴露于某一年龄生育风险的育龄妇女人年数,因此这个年龄指的是历险年龄而不是普查时点年龄。熟悉列克西斯图的人都知道,在一年中暴露于某一整数年龄生育风险的其实会涉及两个相邻的单岁队列。因此,中国普查公布的生育率表中往往将这个历险人年数称为平均妇女人数。有的国家则在生育率表格中直接称为暴露数(exposure),其概念表达更为准确。
如果了解这种不同,理解15岁队列的曾生子女数和计算15岁生育率时用的该年龄组妇女出生数之间的差异其实并不难。比如,按国务院第五次全国人口普查办公室下发的《第五次全国人口普查机器汇总表式》中根据第五次人口普查数据对育龄妇女分年龄生育率的计算方法是:
按照公式(2),普查生育率中用的出生人数其实是“平均出生人数”。如果简单假定普查时15岁和16岁的妇女人数一样多,那么,由于普查的生育表中的15岁出生人数其实是普查时点上15岁和16岁两个队列出生人数的平均数,也就是公式2中表示的15岁和16岁有生育的妇女人数的平均数。而16岁妇女生育水平一般比15岁高,所以在假定这两个年龄组妇女人数一样多的条件下,两个年龄组的平均出生数自然会大于15岁妇女调查时的曾生子女数。何况,现实普查中还会出现15岁妇女数少于16岁妇女数。比如,四普和六普时便是这种情况,那么这两种不同口径的年龄别生育数之间的差距还会变得更大。因此,普查时点上15岁妇女的曾生子女数常常会小于生育表中15岁的这个“平均出生人数”。其实,这些都是人口统计学的常识。也就是说,这两个表中的出生数本来反映的就不是一回事,所以它们之间数量不等并不值得大惊小怪,更不能简单地视为普查出生漏报的反映。
实际上,在中国人口普查中对于生育率的统计口径的确有过几次变化。比如,笔者在分析六普生育数据时发现,六普公布的长表(10%抽样)生育率曲线上存在一些明显的年龄别波动,其原因是六普的生育率采用了与五普不同的计算方法。笔者对六普供分析用的再抽样样本(相当于总人口1%抽样)分别采用这两种计算口径的测试结果表明,用六普口径计算的年龄别生育率曲线具有与公布数据同样的年龄别波动,而用五普口径计算的年龄别生育率曲线却相当平滑(郭志刚等,2014:33-34)。
笔者曾在给六普招标课题组下发的长表年龄别生育率(L6-05)表格的脚注中找到了六普生育率的计算方法。可以概括为两条:(1)六普生育率计算年龄别平均育龄妇女人数时沿用了五普方式(即常规平均数方法);(2)在计算年龄别出生人数时与五普方式不同,采用了按普查时点前一年时间的期中(即2010年5月1日零时)作为标准时间来划分生育率表中的育龄妇女年龄,并直接汇总出相应年龄组的出生数。
经验表明(郭志刚等,2014),对六普1%再抽样数据用不同统计口径计算的生育率模式会存在一定差别,其中六普算法得到的低龄组生育率略低于五普算法的相应结果。但是,两种算法各自汇总的总和生育率差别很小。比如,对六普1%样本用五普方法计算的总和生育率为1.190,而按六普算法的统计结果则为1.188,且后者恰好等于公布的长表生育率结果。其实,六普算法的总和生育率略低是与其低龄组生育率略低紧密相连的,而这一特点对于本文后面的P/F比方法探讨十分重要。然而,这两种不同计算方法得到的年龄别生育率则会对P/F比结果产生非常大的影响,其中最重要的是这两种生育率结果在应用P/F比方法时应该分别套用两组不同的系数。
实际上,P/F比方法的计算公式是固定的,但有两组计算系数分别供不同生育率口径使用。其中,a组系数适用于调查前一年的出生是按母亲调查期末年龄分组的生育率口径;而b组系数则适用于前一年中的出生是按母亲生育时年龄分组的生育率口径。陈卫、杨胜慧(2014)提供的表1实际上便是其中的b组系数,他们不太清楚普查时点年龄和生育事件的历险年龄之间的差别,想当然地认为六普生育率中的分子(即出生)自然应该是按母亲生育年龄划分的,因此在计算六普的P/F比时用b组系数,只是在脚注里提到还有一套a组系数。
图1 五普和六普对年龄别生育率出生数的统计口径图示
注:a为年龄,T为普查时点的前12个月内,C为按普查时点年龄为下限的单岁妇女队列。图中用阴影区域来表示出生定义口径涉及的风险区域。
对比五普和六普的生育率口径。其实五普是将两个单岁队列妇女人数平均的方法估计了一年中的历险人数,并用同样方式估计了相应出生人数,因而更接近于b组系数对应的生育率口径。但在六普时,生育率历险人数的统计方法虽然与五普相同,出生事件数其实是按调查期末妇女年龄划分的,只不过在名义上将其提前半岁。换句话说,六普生育率表中15岁组出生数其实是普查时点上[15.5,16.5)岁的妇女所生④,所以该队列妇女在普查前12个月内经历了3个年龄的生育风险,即14岁、15岁和16岁(见图1)。这样定义的出生仅仅来自于一个单岁妇女队列,而理论上的15岁生育率的分子则应该涉及两个单岁妇女队列在调查前12个月内于15岁上的出生。如图1所示,如果按2010年5月1日时妇女年龄来汇总15岁及以上的出生,那么普查时点上年龄在[15.0,15.5)岁之间的妇女所生的子女数就会从生育率统计中被删截掉⑤。于是,与五普公布的15岁组生育率中出生数口径相比,六普相应统计数能否与之对应的条件为,图中这个C=15.5岁的单岁队列于前12个月内在14岁与16岁的合计出生数是否等于C=14.5岁队列同期中在15岁出生和C=16.5岁队列同期中在15岁出生的合计数。但这是很难相等的,因为队列妇女数差异、生育水平上的年龄差异和队列差异都会对此有影响。
然而,以上探讨对P/F比方法最重要的意义是,六普的出生不是按母亲生育时年龄来划分的,而是按普查时点年龄来划分的,因此陈卫、杨胜慧(2014)对六普出生采用b组系数计算P/F比值是不恰当的,应该采用a组系数来计算。
四、试算历次人口普查数据的P/F比
中国从1982年第三次全国人口普查起便提供详细的各年龄组育龄妇女的平均曾生子女数,把这些数据与各年龄组的时期生育率结合起来,便可以计算P比值。这些普查生育数据并不难获得,但在应用P/F比方法时存在一些数据口径问题。
首先,三普调查的标准时点为1982年7月1日,而收集时期生育数据的时间口径却是1981年这个日历年,因此出生数和妇女数两者在时间上相差半年⑥。1990年第四次全国人口普查对此问题进行了修改,其标准时点为1990年7月1日,收集了1989年的上半年、下半年和1990年上半年的生育情况数据,但公布时仍是类似三普的1989年日历年生育率。三普和四普收集生育数据时只需要育龄妇女回答规定时期中是否有过生育,并不询问妇女的具体生育时间,这是与五普和六普的不同之处,所以,三普和四普数据根本无法确定妇女生育时的确切年龄。四普曾生子女数表的x+1岁妇女数与生育数据表中x岁妇女数完全相等,说明四普时是按调查时妇女人数的年龄减1岁直接作为生育数据表中的妇女人数的,那么三普应该也应用了这种简单汇总方式。因此,三普和四普生育数据可以视为对应P/F比的a类系数,即按队列回溯母亲人数及其出生人数,所以尽管各队列在普查时有相应年龄,然而,严格地说普查提供的是时期队列别生育率,而不是真正的时期年龄别生育率。
五普和六普都询问了妇女的生育月份,因此本来可以按妇女生育时的年龄来汇总时期年龄别出生。但如前所述,五普是用两个队列妇女人数和出生数平均的方法估计前12个月内的生育历险人数及其相应出生人数,因此是时期年龄别生育率的一种简单估计。而六普汇总方式则介乎于四普方式和五普方式之间,妇女人数沿用了五普口径,是时期年龄别口径,但出生数则类似于四普的时期队列别口径。
总之,为了对P/F比进行探测,我们权且忽略普查数据中的其他口径问题,分别按a组系数和b组系数计算各次普查生育数据的P/F比值,结果如表1所示。
表1显示,无论是用a组系数还是用b组系数计算,在15~19岁低龄组中,三普和五普的P/F比都出现了异常的负值,而四普低龄组的比值为正值。三普、四普和五普用两组系数计算的P/F比值在20~39岁各年龄组中同样呈现出随年龄而明显上升的现象,反映出生育水平或生育模式在变化。在这种情况下,年龄别P/F比值变化不能简单视为数据质量有问题,P/F比值水平(如20~39岁比值的平均值)也不能作为生育率间接估计的调整系数。值得注意的是,如果忽略年龄别P/F比值的具体变化,这三次普查20~39岁P/F比平均值反映出一种不可思议的结果,即“三普生育率低报了24%~34%,四普生育率略有高报,而五普生育率则比较准”。这一结论显然与学者们历来普遍认为三普质量最好、五普质量极差的观点相反。总之,用两组系数试算这三次普查的P/F比值虽然水平有差异,但年龄别动态却差不多。
表1中按六普b组系数计算的结果与陈卫、杨胜慧(2014)的结果完全相同。六普的15~19岁组的P/F比值出现了异常的负值,而在20~39岁区间各组的P/F比值基本处于1.4左右。但是,换用a组系数计算六普的15~19岁组的P/F比值却是符合逻辑的正数,更重要的是其他各年龄别P/F比值都是随年龄而升高的,于是b组系数那种P/F比值“平稳”结果便不复存在。a组系数的P/F比值反映以往生育水平或模式有显著变化,尽管a组系数计算六普20~39岁组P/F比平均值也高达1.32,但这一结果不能视为六普生育漏报的证据,自然也不能用于调整六普总和生育率。
P/F比方法应用的必要条件是生育水平和模式长期稳定,或者说更适用于一个稳定人口,那么各年龄组妇女人数均应保持稳定比例,那么真正决定年龄别生育率水平的便是年龄别出生人数。从这个意义上讲,笔者针对六普生育率的实际口径采用a组系数计算的P/F比值,应该更符合该方法的要求。然而,与其他普查不同的是,用a组系数居然结果大相径庭。因此,陈卫、杨胜慧(2014)的一系列主要结论完全被颠覆。至于该文发现其P/F比所取得的生育率估计值与他们先前使用普查数据和公安数据对2000年以来的生育率估计值很一致(陈卫、杨胜慧,2014),到底是一种“偶然的巧合”还是存在某种共性原因,笔者无从评价。但是,a组系数的计算结果实际上与普查公布的生育率、年龄模式,以及其他多项全国调查反映的生育结果是一致的,而且这些结果均是基于调查原始数据的直接分析。
除了六普应用b组系数的结果以外,表1中所有其他两套系数的试算结果都表现出P/F比值随年龄而升高的特征,反映出中国几十年来生育水平和生育模式一直处于变化之中。陈卫、杨胜慧(2014)认为,“虽然Brass提出的这种P/F比值方法被应用于非洲国家及生育率较高且相对稳定的国家,但中国生育率在过去十多年里较为平稳,也满足该方法的适用条件。”这一判断建立在不恰当地应用b组参数计算P/F比的结果之上,而在此之前该文并没有对实际生育率进程是否平稳本身加以认真研究。因此,这一判断是在用间接估计结果来反证实际动态本身,属于基于假定的间接估计结果来反证这些估计的前提假定合理,无异于同义反复,违背了科学研究逻辑。换句话说,年龄别P/F比值不平稳大致可以反映生育情况有变化,但年龄别P/F比值平稳却并不一定能证明实际生育情况平稳,因为它只是一个必要条件,不是充分条件。