怎样才能让大数据热潮避免昙花一现?

小西叶子
研究员

2013年是大数据元年

  一说到数据、统计调查、统计学,似乎很难,给人没有生气、落后于时代的印象。然而在2013年,大数据、统计学、数据科学家这些词语却广为流传,给人的印象一变而为高端、华丽。许多人意识到"必须熟悉数据"、"应该学习统计学",商务杂志也根据这方面的需求开设专辑,出版统计学或数据分析的实用书籍。许多统计专业人员也感到倍受瞩目的时代终于来临。不过,使人忧虑和焦急的是,这些现象看上去好像只是一时的热潮,与其他流行事物一样,1年后可能没有人再感兴趣。

  为什么会这样呢?首先是因为调查和统计学从来就不华丽。因华丽而倍受关注的是调查统计的结果,在调查统计过程中为收集数据进行调查、构建数据、应用统计学进行分析则是一系列很土气的作业,虽然数据规模增大,但也没有什么不同。大数据分析数据变大,工程也相应变得繁杂,或许难度有所增加。其次是因为,实际上面对大数据时,对于应如何活用数据,需要用什么方法开发,至今没有明确的答案。

以社会经济活动为基础的大数据特征

  大数据有各种各样的定义,一般来说有:容量非常巨大,以往的服务器和数据管理系统无法保存、项目非常多、收集的数据形状也多种多样。因此在分析数据时,目前普遍使用的软件很难胜任。我们的日常活动依赖于IT技术的发展,可以收集和保存,运用于企业战略、新系统和创造商机。以近旁的事为例,超市的POS(Point of Sales:销售时点)数据、公共交通乘客上下车信息,以前由于保存成本太高而删除的数据,现在可以全部保存,无需选择取舍。"无需选择取舍"是不同于以前数据的特点,这一点是在统计解析大数据时应注意的地方。

1)在收集数据阶段,很难确定想分析什么、能知道什么
  随着广泛利用大数据成为可能,与原来的数据相比,大数据的容量和信息量过于丰富,使研究人员和分析专家总想尽快查阅数据,希望找到什么。但如果是因为有数据所以进行分析,那么一旦开始统计解析,无论数据多么庞大,过程中也必然会遇到数据不足的情况。其结果,往往会以数据有限为由,设置强烈的假定来进行分析。

2)与以前的统计调查相比,无法识别个体的情况很多
  例如首都地区的铁路上下车信息,仅仅1天的数据也非常庞大,如果不仅限于使用交通磁卡,还包括买票的乘客,就无法附带个人信息。当然,按时间顺序比较每天的统计指标是可以做到的,但是在乘客人数预测中无法反映个人的属性。如果像许多政府机关的统计一样能够识别个体,就可以加进个人的属性,按同一个人的时间顺序积累的数据就可以作为信息加以利用。克服了这一问题的是利用积分卡连接个人属性的零售业ID-POS数据。

3)没有行动就不包含在数据之
  在上述事例中,收集进数据的只有利用铁路的乘客。大数据积累的是参加宣传活动或做出行动的结果,不参加宣传活动,或者做出的行动不属于收集数据的对象地区或店铺,则不包含在数据之内。因此在统计解析时,应注意取样带来的偏差问题。这种缺损值的问题,在以前的统计数据中也会发生,通过筛选调查对象或制作调查表的方法可以避免。

                    

经济学擅长什么

  政府机关的统计是为了调查产业或个人,掌握国家现状,并留下记录,或者用于制定实施政策;而研究人员或企业则按照自己的关注事项设计调查表,收集数据。也就是说,先有希望了解的目标,在时间和资金成本的制约下,为达到目标而收集数据。这一点与大数据的特点成为鲜明对照,在经济学领域,利用这些数据进行了实证分析。在经济学领域,为了最大限度地利用有限的数据和收集数据的机会,对希望知道什么、建立什么假说、构建什么模型倾注了大量时间。并且为了思考个体的特性给经济活动带来的影响,开发了把个体属性连接在行动数据上的跟踪数据统计方法,可以应用于前述2)的ID-POS数据。对于前述3)的缺损值问题、以及人们依照自我意识参加活动带来的筛选样本问题,可以使用评估政策时的统计方法。此外还开发了确定因果关系、同时发生的经济活动的推定方法等许多根据经济现象实施的统计方法。

                    

对大数据的期待

  这些知识的积累还可以对大数据解析做出贡献。此外,在经济学之外的各个领域,也有适合于各自领域的统计理论和方法。虽然认识到知识共享或不同领域的合作研究对学术发展非常重要,但是由于问题设置、共同语言的磨合、方法论的差异等,却很难实现。另一方面,在收集和保存技术的开发进展到一定水平后,大数据需要积极显示具有什么样的有益于社会的价值。今后,随着进一步完善制度和技术开发,构建记录人们全部生活的名为Life Log的数据取得进展,预计在各学术领域进行分析将遇到局限。笔者期待届时大数据可以通过统计学这一共同语言,实现长年追求的连接不同领域的跨学科研究,开发出新的理论和统计方法。进而期待这些成果能够提高大数据的价值和评价,能更积极地收集用于分析目的的必要信息。

2014年1月28日登载

浏览该著者的文章