欢迎访问今日关注
为了说明什么是"探索性数据分析",先引用一段网络文字()。
“所谓探索性数据分析(Exploratory Data Analysis,以下简称EDA),是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索,通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。特别是当我们对这些数据中的信息没有足够的经验,不知道该用何种传统统计方法进行分析时,探索性数据分析就会非常有效。探索性数据分析在上世纪六十年代被提出,其方法由美国著名统计学家约翰·图基(John Tukey)命名。
EDA的出现主要是在对数据进行初步分析时,往往还无法进行常规的统计分析。这时候,如果分析者先对数据进行探索性分析,辨析数据的模式与特点,并把它们有序地发掘出来,就能够灵活地选择和调整合适的分析模型,并揭示数据相对于常见模型的种种偏离。在此基础上再采用以显著性检验和置信区间估计为主的统计分析技术,就可以科学地评估所观察到的模式或效应的具体情况。
所以概括起来说,分析数据可以分为探索和验证两个阶段。探索阶段强调灵活探求线索和证据,发现数据中隐藏的有价值的信息,而验证阶段则着重评估这些证据,相对精确地研究一些具体情况。在验证阶段,常用的主要方法是传统的统计学方法,在探索阶段,主要的方法就是EDA,下面我们重点对EDA做进一步的说明。
EDA的特点有三个:一是在分析思路上让数据说话,不强调对数据的整理。传统统计方法通常是先假定一个模型,例如数据服从某个分布(特别常见的是正态分布),然后使用适合此模型的方法进行拟合、分析及预测。但实际上,多数数据(尤其是实验数据)并不能保证满足假定的理论分布。因此,传统方法的统计结果常常并不令人满意,使用上受到很大的局限。EDA则可以从原始数据出发,深入探索数据的内在规律,而不是从某种假定出发,套用理论结论,拘泥于模型的假设。
二是EDA分析方法灵活,而不是拘泥于传统的统计方法。传统的统计方法以概率论为基础,使用有严格理论依据的假设检验、置信区间等处理工具。EDA处理数据的方式则灵活多样,分析方法的选择完全从数据出发,灵活对待,灵活处理,什么方法可以达到探索和发现的目的就使用什么方法。这里特别强调的是EDA更看重的是方法的稳健性、耐抗性,而不刻意追求概率意义上的精确性。
三是EDA分析工具简单直观,更易于普及。传统的统计方法都比较抽象和深奥,一般人难于掌握,EDA则更强调直观及数据可视化,更强调方法的多样性及灵活性,使分析者能一目了然地看出数据中隐含的有价值的信息,显示出其遵循的普遍规律及与众不同的突出特点,促进发现规律,得到启迪,满足分析者的多方面要求,这也是EDA对于数据分析的的主要贡献。”
引入上述的一大段言论,意在探讨“Exploratory Data Analysis”汉译如何适宜。
在中文语汇中,“探索”是一个非常宽泛与笼统的词。举个极端的例子:曾有一份中文名为《探索》的杂志将创办者带入了死胡同。中文的”探索“可以是全过程的、全面的、完整的研究,而不仅仅是前期的、初步的分析与研究,而”探索性数据分析“只是充当先行者的角色,是为后续的统计分析服务的。“试探”则带有明显的尝试性、初步性,与英文的“Exploratory”在“Exploratory Data Analysis”意图传达的含义更加吻合。
稍扯远一点,这涉及到英文的“Exploratory”的意蕴与中文“探索”的意蕴有较大差异。
所以想到这个问题,是因为阅读《ArcGIS地理信息系统空间分析实验教程》(汤国安、杨昕编著)中“探索性数据分析”时觉得不很贴切,不如“试探性数据分析”来得直白、通俗。
网搜发现,冠以“探索性数据分析”的著作与论文已有不少,中国统计出版社1998年出版的《探索性数据分析》([美]David C.Hoaglin)可能是这方面最早的译著。鉴于“探索性”含义多元,不如“试探性”来得通俗易懂(“社会主义初级阶段”也比宽泛的“社会主义”直白。
从表面上看,“探索性”数据分析并无大碍,但换个角度看,不妥似乎就骤增了。有“探索性分析”,后续性的统计分析就属于“非探索性分析”。然而,将其他分析方法归类为“非探索性分析”,必然是个荒唐的推论。科学研究整个都可视作探索性过程,“探索性”对应之“非探索性”之不宜与乖谬可见一斑。
所以对“探索性”作类似哈姆雷特“to be or not to be”的联想,与最近阅读了多篇抨击“非典”期间对于“非典”的误用、滥用的评论与研究论文有关。
比如,《青年参考》2003年11月19日发表了纪念非典一周年的文章,第一节的小标题为“记忆,从正名开始”。现摘要如下:“在SARS一周年这个特殊的时段,进行一番思考、评论当是题中应有之义。但是,对媒体来说,首先是忠实地记录历史。其价值在于,忠实记录永远比评论和思考更有历史的穿透力。因此,在推出SARS周年特刊之际,我们以为,真正的记忆当从对这场瘟疫“正名”开始。今天,在各种场合被混用的“非典”和SARS是两个具有完全不同病原学术内涵的医学术语。非典型性肺炎是人类已经比较认识的疾病,而SARS则是严重急性呼吸综合征(Severe Acute Respiratory Syndrome)的首字母缩写。它描述了疾病的严重、急性和呼吸道三个重要特征。“非典”并非SARS的准确翻译。遵从科学和准确的称谓原则,作为一份有责任感的报纸,我们严格统一使用“SARS”,是为忠实地记录历史。遗忘,往往是从语焉不详和游移暧昧的称谓和描述开始的。”
从网络上获取的《中国统计》1997年06期发表的 《探索性数据分析》(作者陈忠琏)一文的摘要称:“‘探索性数据分析’和‘稳健统计方法’在应用统计中占重要地位。然而这两个名词也许对不少人来说是陌生的,这没有关系,请浏览一下即将出版的《探索性数据分析》一书的前七章,也许就使你疑云尽释了。面对刚刚搜集到的一大堆统计数据,也许是一片混沌...”
我想,即使我看了“《探索性数据分析》一书的前七章,也许就使你疑云尽释了”我也不会“疑云尽释”。当然,看英文原版可能不会有相同的疑问。此文推介的应是David C.Hoaglin的著作。我不知“稳健统计方法”的英文模样,看上去也也有些生涩与别扭。不过,这是题外话了,本文重点是就“探索性数据分析”发表个人观感。欢迎有兴趣者进行点评,各抒己见。
中国领先的综合门户网站,提供含文图音视频的全方位综合新闻资讯、深度访谈、观点评论、财经产品、互动应用、分享社区等服务为全球主流华人提供互联网的新媒体优质体验。