举例说明数据分析思维
前两天刷知乎的时候看到这样的问题:
目前创新互联已为近1000家的企业提供了网站建设、域名、网页空间、网站改版维护、企业网站设计、邗江网站维护等服务,公司将坚持客户导向、应用为本的策略,正道将秉承"和谐、参与、激情"的文化,与客户和合作伙伴齐心协力一起成长,共同发展。
“为什么我国人才流失如此严重?”
题主的疑问来自于×××的数据:
2014年出国人数为46万,而回国人数仅为36.5万。
两者相除,得出“归国率”仅为79%,而2015年仅有78%。
因此,题主得出结论:我国海外人才大量流失。
随后,各路人马纷纷跳出来,开始一本正经地分析为什么中国人才流失这么严重。
问题是,这样的数据解读正确吗?
用同一年内的出国人数和归国人,计算出来的所谓“归国率”,真的有意义吗?
如果这个数据本身就没有意义,那么“分析”背后的“原因”,无疑是南辕北辙了。
——请先思考一分钟——
2015年归国的留学生,肯定在2014年甚至更早就出国了。
极少有学校会开设1月入学,12月毕业的Program。
所以,这里用同一年内的回国人数和出国人数相除,算出来的所谓“归国率”纯粹是瞎几把算。
一般国外本科是3-4年,美国的master是1.5-2年,英国及英联邦是1-1.5年,PhD一般要5年。
由于查不到不同项目人数的比例,因此保守估计平均出国年份为2年。
-
根据×××的数据,2015年回国是40.9万,往前推2年,2013年出国人数是41.4万。
2915年归国率 = 40.9/41.4 ≈ 99%,远高于所谓的“78%”。
同理,2014年的归国率是 91%,2013年甚至超过100%(可能是由于较多其他年份出国留学的学生在2013年集中回国,导致数据爆表)。
近几年的归国率均高达90%以上,因此“我国人才流失严重”显然是不成立了。
所以说,以后数据分析之前应该先动动脑子,不要总想着搞个大新闻批判一番。
这个问题是解决了,那么还能挖出什么别的东西呢?
还可以观测趋势。
整理了从1949-2015年,每一年的出国留学和归国人数。
加总后,得到归国人数总计218万,出国人数总计292万(不含2014和2015年),从而得出回国率75%。
为什么总体只有75%?这和我们计算的2013-2015年的归国率相差甚大。
首先做一个简单推测:早年的归国率低,因此整体归国率被拖了后腿。
分别计算每年的归国率(篇幅原因,取1980年开始):
果然,从改革开放以来,大部分年份的归国率是非常低的,算术平均数仅为63%。因此得出结论:近年来,越来越多的留学生选择回国。
那么,还能不能挖掘出别的东西?
在分析过程中,我发现了一个有趣的现象,如果只看2000年以后的数据,2003-2008年出现了明显的洼地。
为了找出原因,特别是要规避计算方法带来的错误,我计算了出国和归国人数的逐年增长率(YoY Growth)。
数据表明,2000-2002年出现了一波出国的高潮,随后增长率迅速下降,甚至出现负增长,直到2008年以后才恢复到了20%+的增长率。所以,2008年实际上是一个分水岭,08年之后,出国留学变得更加热门。
结合平时实际了解的出国人群的情况,我们可以做这样一个假设:2008年以前出国人群中,本科和博士比例更高,2008年以后则是硕士比例更高。
因此,2008年以前出国的学生,在国外停留的时间应该更长,我们不妨认为这个平均时间是3.5年,取整为4年。
重新计算归国率后:
结果,不仅2005-2007年的洼地没有改变,还在2002年出现了一波高峰。因为这里已经排除了计算方法带来的错误,因此需要去探究背后的动因。
但想要真正透彻地探究其中的原因,只能通过大规模调研的方式询问当时的留学生,显然不太现实。
在这里先开一波脑洞大致推测下原因:
2001年,中国发生了几件大事:申奥成功,WTO,APEC会议,因此鼓舞了一批留学生在2002年集中回国效力;
2004-2008年,国内舆论风波逐渐兴起,各路公知兴风作浪,在2008年到达顶峰,这几年的留学生更多选择在留在国外;
- 2008年,内有雪灾、地震、毒奶粉,外有分裂反华势力,中国在内交外困之下成功地举办奥运会,从此国内舆论形式逐渐反转;加之全球性的金融危机,导致海外的机会减少,大批留学生又选择回国发展。
如果这是一次正式的数据分析,我们可以利用调研结果进一步分析出留学生回国的驱动因素,进而预测未来几年的归国率。
综上,数据分析首先要保证数据和方法的准确性,然后大胆假设,小心求证。在不断地论证中,会逐渐挖掘出有价值的新信息。
除此以外,这些数据还可以做别的吗?
还可以匡算市场规模。
从2015年开始,每年出国留学的人数已经超过了50万。
算上出国留学有至少2-3年的准备期,那么留学产业每年的基础人群高达150万。
由此可以大致分别估算留学考试辅导、留学咨询/中介、国际学校的市场规模。
同理,每年归国的留学生超过40万,这些留学生都需要在国内求职。
算上1-2年的准备期,由此可以大致估算求职辅导(针对留学生)的市场规模。
以上这些仅仅是最简单最粗浅的分析。
在实际咨询项目中,一般会首先通过多方渠道验证数据的准确性,然后搭建模型进行深入地分析,当然同样少不了反复验证的程序,结合定性分析,得出最终的结论。
分享文章:举例说明数据分析思维
标题来源:http://cdiso.cn/article/pidjde.html