为了准确高效地构建数据

小西叶子
研究员

进入实证分析之前的一项重要工作

  近年来,利用微数据的技术成为可能,计算机和软件的开发也取得进展,许多研究人员都建立了丰富的数据库,用来进行实证分析。使用微数据进行实证分析,对于有理有据地制定经济政策来说是必不可少的。然而从现状来看,在获取大规模微数据时,需要花费大量时间把数据整理成可以进行分析的形式。此外,数据有各种不同形式(txt、csv、固定长度、只能使用特定软件阅读等),变量名称的定义和个体识别ID等规则也非常繁杂,每次都要花费时间了解数据,细心操作。而且,通常都是使用多个统计,因此还需要匹配工作。

  即便是习惯于数据操作的研究人员,也会在操作过程中出现错误,这些错误会对实证分析产生重大的本质性的影响。因此,构建数据应大量反复摸索,尽量排除手工操作和目视程序,实现自动化处理。为实证研究构建数据,需要与分析作业同等水平的技术、战略和理论性。

RIETI提供的服务

  这种工作需要熟练的技能和长时间作业,但申请用于其他目的并得到批准使用的大规模个案调查数据等规定了使用期限。研究人员希望尽快开始分析,但如上所述,在目前情况下,为整理数据需要花费很多时间。

  鉴于此,RIETI为了使研究人员能够尽量高效准确地进行实证分析,在经济产业省提供的个案调查数据统计中,对申请使用频度高的数据实施了知识积累和共享,以便建立数据组合。具体来说,就是开发了把工业统计调查、企业活动基本调查、海外事业活动基本调查中的营业所或企业按照时序方向连接起来制作跟踪调查数据的方法、以及为建立把各种调查互相对应配置,把营业所和企业连接起来的统一数据所需的转换程序的制作方法。在RIETI网站的微型数据计量分析项目的页面里,刊登着有助于建立各种个案调查数据的信息。此外,如果向RIETI申请了使用个案调查数据,只要办理相应的手续,就可以使用转换程序。

欲速则不达:应避免忘记和误以为

  研究人员往往一边进行分析一边构建数据,这并非粗心大意,而是希望尽快看到计算结果,验证自己的假说或模型是否正确,能否描述出打算进行观察的现象。有时出于急切的心情对原始数据直接加工或覆盖输入,结果不得不多次重复相同作业,最坏情况时,甚至失去了原始数据。解决这种问题的方法非常简单,就是分析和构建数据不要同时进行。如果同时进行,相似的数据文件夹增多,变量也越来越多。这样只要经过半年时间,记忆就会模糊,记不清自己使用哪个文件夹进行分析,怎样制作的变量。忘记和误以为不仅在日常生活中,而且在构建数据和研究过程中也是经常发生的现象。

  为了减少自己在将来花费的时间,首先需要分出时间用于构建数据,备存简洁、准确、任何时候都可以重新审视和修改的分析记录,这样做可以提高统计解析的精确度,更高效地开展分析。

大规模数据组合与不拖延数据管理

  构建数据需要非常多的时间和精力,正因如此,每次改变假说或分析课题时都重新构建数据效率太低。笔者建议采用尽可能制作大规模数据组合,分析所需的数据随时通过程序抽出来的方法。出于这种观点,在此介绍一下阿部等(2012年)制作的工业统计调查转换程序。以往根据工业统计调查制作跟踪调查数据时使用的转换程序,由于很多研究是以数量解析为目的,因此都是以回答调查的营业所为对象制作的。然而像产业集群、市场参与率或退出率这样的问题,有无营业所非常重要,仅靠这些数据不能充分达到目的。所谓工业统计调查中的大规模数据,包括成为调查对象的所有营业所,再加上通过连接装置或虚拟变量来保存有助于识别营业所的信息。例如,把回答和未回答的信息作为连接装置加进去,就可以依靠连接装置把以往的回答信息库中的数据组合抽出来。

  图1是使用工业统计调查的分析流程例。

  • STEP1:使用METI提供的各种信息(原始数据)和制作的转换程序制成大型成套数据。
  • STEP2:从程序中抽取分析工作需要的数据。
  • STEP3:使用程序留存记录,并进行实证分析。
图1:工业统计调查的分析流程例(与阿部先生合作制成)
图1是使用工业统计调查的分析流程例

  这里所说的流程,是指使用文本信息记录各工序。在这样的流程中,不直接加工和保存原始数据、制作完成的大型成套组合和用于分析的数据。变形、储存、置于手边的仅限于各个流程。这种做法的好处是,增加的只是文本信息,可以节约计算机内的存储容量。此外,由于使用程序进行自动化处理,所以发生人为错误的余地极少。即使发生错误或需要变更时,也不直接加工原始数据,因此可以任意次数再现原始数据。而且,由于保存的是文本信息,所以还可以防止泄露机密信息或数据。

  在研究过程中,解析往往被置于重要位置。但是笔者认为,统计是告诉我们真实和现实的宝库。笔者相信,花费时间认真对待,构建可以用尽全部信息价值的数据,可以显著提高研究整体的精确度。

2012年7月3日
参考文献

2012年7月3日登载

浏览该著者的文章