数据本质

2024-08-04

数据本质（精选四篇）

数据本质篇1

一万物皆数: 大数据的本体假设

世界究竟是什么? 这是哲学家们一直特别关注的重大问题,也是我们通常所说的本体论问题。大数据革命带来了一场认识论和方法论的新变革,我们自然就有必要关注大数据的本体论主张。

早在古希腊时期,毕达哥拉斯就认识到“数”的本体论地位。作为一位数学家,他关注事物之间的数量关系,并且由于酷爱音乐而特别关注事物之间的和谐比例关系,因此他认为世界的本原或始基并不是具体的物质,而是表征物质之间关系的“数”。毕达哥拉斯由此提出了“万物皆数”这样一个看似异类的观点,由此将表征事物及其关系的数据符号上升为具有本体论意义的万物始基。[3]

无独有偶,在古老的中国,“数”很早就被当作揭示和解释宇宙秘密的工具,甚至被当作世界的本质。据说中国的上古先民就根据龟壳烧烤后的裂纹,然后又进化为蓍草组合的占卜来解释吉凶祸福,由此发展出由阳爻( ———) 和阴爻( - - ) 符号组合而成的易经。易经由相互对立的两个东西( 例如正和负) 经三组排列成八卦,八卦再组合成64 卦,由此类推以至无穷。中国古代哲学家老子将易经发展为代表其基本主张的哲学体系,认为由阴阳出发的五行、八卦等描述了世界的基本规律,阴阳是万物最基本的构成要素,阴阳存在于万物之中,是世界的本体。“道生一,一生二,二生三,三生万物。万物负阴而抱阳,冲气以为和。”[4]按照这个模式,世界从无到有,阴阳交互而生万物。后来的儒家、道家、阴阳家将易经发展为一整套哲学体系,特别是河书、洛图更是将宇宙万物与1、2、3 等几个简单的数字联系在一起,并生成一个复杂的宇宙世界。

在中世纪,数据的哲学地位不是特别突出,但《圣经》中依然提到语言的巨大作用,甚至将其提升到与神同在的地步。《新约·约翰福音》里说,太初有道( word) ,道与神同在,这是将世界的根源归结为“道”( 语言) 。[5]8用现在的眼光来看,语言表述就是一种信息,而信息可以转化为数据,因此语言也是一种数据。由此可见,圣经对“道”的强调其实也就是对数据的强调。

文艺复兴之后,近代科学发展迅速,特别是经验主义重视受控实验、数据收集与处理,这极大地促进了科学的发展,数据的地位也得到了极大的重视。例如,牛顿把数据、数学作为科学研究的重要工具,莱布尼兹则提出了其著名的“单子论”,而康德则将“量”“质”当作科学认识的四大类基本范畴之首。不过,此时的西方近代哲学发生了重大转向,兴趣重心从本体论转向了认识论。这就是说,西方近代哲学不再像古代哲学那样重点关注世界是什么的问题,而是关心我们怎样去认识这个世界,怎样才能获得对世界的认知。因此,数据在近代哲学的认识论中虽然获得了特殊地位,但它仅仅被当作科学认识的工具,其本体地位并没有什么突破,甚至从古代的本体地位下降到了工具理性的地位。

数据本体地位的突破发生在现代信息论的诞生之后。20 世纪40 年代中期,美国科学家诺伯特·维纳和克劳德·香农分别同时提出了信息论思想。在信息论刚刚创立之时,维纳和香农都没有给出信息的明确定义,维纳只是说: “信息就是信息,它既不是物质,也不是能量。”[6]他在这里将物质、能量、信息三者相提并论,信息的独立地位就由此凸显了出来。由于信息论的诞生,信息从科学上获得了独立的本体地位,它成为构成世界的三剑客之一。从此,人们开始认识到,信息是宇宙固有的组成部分,就像物质、能量一样。正如詹姆斯·格雷克所说:“信息是我们这个世界所依赖的食物和生命力。”[5]5信息是对事物状态差异度的一种刻画,而“数据代表着对某件事物的描述”[7]104。由此可见,信息和数据具有一定的等价性,因此,信息论对信息独立本体地位的论述,也就间接论证了数据的独立本体地位。

20 世纪下半叶,随着计算机技术、人工智能和其他智能设备的发展以及互联网络的建立,数据的地位一下子凸显出来。21 世纪的智能手机、移动网络、智能终端、物联网的广泛使用,数据的规模一下子呈暴增之势,而云存储、云计算等技术又为数据存储和挖掘提供了可行的技术手段,于是,我们一下子从小数据时代迅速步入了大数据时代。在大数据时代,数据成了时代的核心,成为一种与土地、矿产、石油等自然资源一样重要的新型资源,数据的本体地位更加凸显出来。

大数据作为一场数据技术革命,数据被提高到前所未有的高度,成为一种形而上学的信念和本体论的基本假设。大数据认为,数据已经不再仅仅是一种事物及其关系的表征符号,而是世界的本质。英国大数据权威维克托·舍恩伯格认为世界的本质就是数据。“有了大数据的帮助,我们不会再将世界看作是一连串我们认为或是自然或是社会现象的事件,我们会意识到本质上世界是由信息构成的。”[7]125他还引用物理学家约翰·阿奇博尔德·惠勒的话说: “并非原子而是信息才是一切的本原。”[7]125惠勒用了一句颇具神谕意味的话语: “万物源于比特( It from Bit) 。”[5]7比特生存在,是圣经说法的新版本。“比特是另一种类型的基本粒子:它不仅微小,而且抽象———它存在于一个个二进制数字、一个个触发器、一个个‘是’或‘否’的判断里。它看不见摸不着,但科学家最终开始理解信息时,他们好奇信息是否才是真正基本的东西,甚至比物质本身更基本。”[5]7大数据认为,世界上的万事万物及其关系都可以用数据来表征,用更简洁的话来说:“万物皆数据”。这就是舍恩伯格所说的“世界的本质是数据”的含义,也是大数据的本体论假设。因此,大数据时代来临的标志并不仅仅是数据规模变得特别巨大( 因为数据规模的大小并没有一个绝对标准) ,其真正的标志,或者说真正的革命表现在数据观的革命,也就是本体论假设的变革,“万物皆数”成为大数据时代本体论的基本假设。

二量化一切: 大数据的终极追求

在大数据时代,数据的本体地位得到了张扬,从描述事物的符号变成了世界万物的本质属性之一。在大数据看来,物质的世界同时也是一个数据的世界,因此对世界万物的数据化成为大数据的终极性追求。换句话来说,大数据试图“量化一切”,把万物变成数据,并通过数据来认识和把握万物。

从粗略来划分,人类数据化的历史大概可分为财富量化、自然量化和人文量化三个阶段。为了更精准地描述、记录和理解事物,人们很早就开始了对事物数据化的历程。财富的记录和计算,是人们最早迫切需要精确计量和计算的领域,因此人类最早的量化工作,或者说数据化工作,就是从财富的量化开始的。后来广泛进行的人口统计、财产登记、会计核算等国家统计行为,都是人类早期的数据化工作。“计量和记录一起促成了数据的诞生,它们是数据化最早的根基。”[7]105所以,财富的数字化和计量化,促使了人类对事物认识的精确化和数据化。难怪格雷克会说,普罗米修斯赠予人类的最宝贵的礼物,并不是人们常说的火种,而是数字和字母: “我( 普罗米修斯) 为人类发明了数,这是所有科学中最最重要的,还有排列字母的技术,这是缪斯诸艺的创造之母,借此可以把一切牢牢记住。”[5]8

自文艺复兴开始,科学技术获得了突飞猛进的发展,而其推动力主要就是对自然的数据化,或者说叫量化自然。在文艺复兴以前,人类的量化或数据化的工作主要还停留在财富的数据化,而文艺复兴后,人类就开始了对自然界及其各种现象的数据化。近代科学的兴起,跟受控实验和归纳法的兴起有着极大的关系。以前的科学主要靠开放性的自然观察以及人类的理性思维为主,不是建立在比较可靠的实验数据的基础上。近代科学主要依靠实验室的受控实验以获取实验数据,并通过数据的归纳、推理以便得出比较可靠的科学规律。随着各种测量设备和技术的发明,人类对自然的测量和量化范围越来越宽,基本上实现了对自然界各种现象的测量和量化。现在的地球变成了数字地球,宇宙变成了数字宇宙,因此,自然界变成了一个完全被数据化的自然界。正因如此,自然科学和技术具备了普遍必然性,也获得了更加深入的理性认知,成为人文、社会科学各学科学习的榜样。

人类以及由人类构成的社会,具有主动性、自由性、非线性、涌现性等复杂性特征,其行为具有不确定性,因为我们不可能像对待自然界一样,通过受控实验,获取少量的数据就能够把握思想和行为规律,因此需要海量的数据才能刻画人类的复杂思想和行为。然而,在大数据之前,人们无法获取海量的数据,也无法存储、传输和处理这海量的数据。大数据技术的出现为人类及其社会的数据化提供了可行的技术和难得的机遇。大数据解决了人类及其社会的数据化问题,实现了量化人类及其社会的目标,我们进入了“量化人文”的阶段。由于智能技术的发展,人们有了智能手机、可穿戴设备、传感器、网络浏览记录以及摄像头等各种智能数据采集系统,因此各种数据能够源源不断地被自动采集,汇聚起来并快速地形成海量数据。这些数据全面记录和反映了人类思想、行为,通过数据挖掘,我们就能够找出人类思想、行为的历史轨迹,并根据历史轨迹能够预测其未来的思想和行为,因此依靠大数据,我们既可以精准描述人类的历史行为,又可以预测其未来的行为走向。像当年的望远镜和显微镜一样,大数据已经成为万能的“社会之镜”,通过它可以全方位地观察生活的各种复杂性。[8]12通过大数据,人类及其社会也像自然界一样,能够被全面数据化和计量化,实现人文社会科学的量化工作,并让人文社会科学成为真正的硬科学。

“大数据发展的核心动力来源于人类测量、记录和分析世界的渴望。”[7]104利用智能设备,我们的行为、位置,甚至身体生理数据等每一种变化都成了可被记录和分析的数据。以往只有完全数字化的数据才能够进行计算、处理等操作,而如今智能设备记录的数据本身就是数字化的。以前被认为无法数据化的文字、图片、视频、音频、个人感觉等信息,都可以通过信息转换,最终还原为由0 和1 构成的数字信息,将模拟信息自动转换为数字信息,从而实现海量信息的智能传输、存储、挖掘和利用。当文字、图片、音频、视频、方位等信息自动变成数据,人类的关系、经历、情感、意志、偏好、兴趣、情绪、习惯等以往认为极其个性化的信息自动变成数据之时,人类思想及其社会行为就有可能被彻底数据化。“大数据通过人与人之间的海量交换网络为我们提供了洞悉社会各种复杂性的机会。”[8]13通过智能芯片将万物联系起来的物联网将早已被初步数据化的自然世界更加彻底被数据化,加上早已实现了的个人与社会财富的数据化,以及如今的人类及其社会或人文的数据化,于是,世间万物真正彻底实现了数据化的目标。大数据成了人类洞察世界万物的“上帝之眼”[8]12,“只要一点想象,万千事物就能转化为数据形式”。[7]123

正如舍恩伯格所说: “大数据标志着人类在寻求量化和认识世界的道路上前进了一大步。过去不可计量、存储、分析和共享的很多东西都被数据化了。拥有大量的数据和更多不那么精确的数据为我们理解世界打开了一扇新的大门。”[7]23世界上几乎任何事物都可以用数据的方式量化,或者说“万物皆数据”。“量化一切”,成为大数据的终极目标,而且已经得到了初步的实现。“一旦世界被数据化,就只有你想不到,而没有信息做不到的事情了。”[7]125有了大数据的帮助,我们不会再将世界看作是一连串我们认为或是自然或是社会现象的事件,我们将认识到世界是由数据构成的。[7]125

三数据实在: 大数据的客观本质

自从大数据革命以来,数据被推到前所未有的历史高度。数据的本质究竟是什么? 我们将从数据与信息、数据与物质、数据与客观知识之间的关系入手来回答这个问题。我们认为,数据是信息的一种表征方式,它是物质的根本属性之一,也是一种新型的客观实在,可以称之为“数据实在”。

( 一) 数据是信息的普适表征方式,数据的本质是信息

“‘数据’( data) 这个词在拉丁文里是‘已知’的意思,也可以理解为‘事实’。”[7]104数据是我们主体对客体的描述,而且最终可以还原为最基本的二进制数字0 和1,因此可以被计算机等智能设备所识别和处理。信息与数据到底是什么关系? 一般认为,数据比信息更加基础,数据加上背景或语境就成为信息,在信息中找出规律就成为知识,因此数据、信息、知识三者之间形成一个金字塔结构。[9]但事实上,数据是数和据的结合,本身就带有背景或语境,因此数据与信息事实上具有等价关系。我们目前的大数据革命其实也就是信息革命的延续,或者说是信息革命的新阶段。

信息论之父香农在其原始文献《通信的数学理论》中,虽然没有定义信息的概念,但他把信息与描述混乱度的熵等同起来,并用熵增来作为信息的测度: H = - ∑Pilog2Pi,这个测度公式其实是意外程度的量度,其中Pi是可能讯息的出现概率。[5]222初看起来,香农似乎解决了信息的测度问题,但从技术层面来说,这个公式只适用于某些通信工程计算,没有普适性,因为我们一般情况下根本没法获得Pi,所以也就没法计算信息量H。

但是,通过数据来测度信息却具有普适性,因为任何数据都是某种信息的反映,也就是信息的数据表征方式。在大数据时代,数据的挖掘和测度已经实现了智能化和自动化,因此通过数据来测度信息,是信息表征和测度的一种普适方法。

我们从维纳的论述中已经知道,构成自然世界最基本的要素有三种: 物质、能量和信息。我们已论证了数据其实就是信息的一种表征,所以,数据是构成世界的三大客观要素之一,它是我们认识物质、计算能量的一种普适测度工具,也是构成世界的一种客观实在。

( 二) 数据是物质的一种根本属性,是物质与意识共同作用的结果

数据本体地位的提升让毕达哥拉斯当年的论断“万物皆数”,又产生了时代的回响。数据成为世界的本质,或者说数据成了世界的始基,这样是不是就否定了辩证唯物主义的物质第一性的论断呢? 物质第一性是不是要变成数据第一性呢? 这就涉及物质、意识与数据三者之间的关系。

仔细分析之后,我们会发现,无论是能量还是信息( 数据) ,都需要物质作为载体才能存在。例如,无论是石油、煤炭还是太阳能,这些能量都寄居于物质载体之中。数据也是这样,任何数据都必须有其背景载体,都反映了物质及其关系的具体状态,或者说,数据是物质及其关系的反映,因此物质、能量与数据( 信息) 三者虽然都是客观存在,但能量和数据都是以物质作为载体基础。

从物质、意识与数据三者的关系来看,根据马克思主义哲学,意识是物质世界在人们头脑中的反映,它具有从属性,但数据该处于什么样的地位呢? 从上述论述中,我们已经知道了数据作为信息,必须以物质为载体。数据从本质上来说应该是主体对物质客体世界的一种主观建构,是我们人类利用自己的主观能动的意识对客观物质及其关系的一种数量描述。就像康德所说,我们要认识和把握现象世界,就要用量、质、关系、模态等四大类十二个范畴才能对现象世界进行比较精致的刻画。[10]数据其实就是康德这四大类十二个范畴的综合描述和反映,即数据集中反映了物质现象的量、质、关系和模态等参数。“通过数据化,在很多情况下我们就能全面采集和计算有形物质和无形物质的存在,并对其进行处理。”[7]125

数据虽然具有客观实在性,但是它依赖于物质,它是主体意识对客观物质的一种主观建构,因此数据对物质具有一种依随、主从关系。没有脱离物质及其关系的数据,数据都是物质及其关系的反映,当然任何物质以及关系都可以用数据来描述。数据是物质的一种根本属性,是物质与意识共同作用的结果。惠勒有点隐晦地说道: “我们所谓的实在( reality) ,是在对一系列‘是’或‘否’的追问综合分析后才在我们脑中成形的。所有实在之物,在起源上都是信息理论意义上的,而这个宇宙是个观察者参与其中的宇宙。”[5]7

( 三) 数据是一种属于波普尔世界3 的客观实在

数据的实在性是一种怎样的实在性? 柏拉图在他那著名的洞喻中,囚徒在洞内墙上所看到的影子,是洞外实物在墙上的映射,虽然影子不是实物,但它们同样也具有某种实在性。当然这种实在性起初依赖于洞外的实物,而且如果这些影子没有被图画、记录下来,它们有可能消失,但一旦被记录下来,这些记录又成了另一种客观实在。数据就类似于囚徒墙上的影子,它依赖于物质实在,但它本身也成了一种新的实在。随着数据技术的发展,万事万物的所有状态都将留下数据足迹,这些数据足迹将永远被记录下来,成为一种数据实在。数据这种新实在,已经成为刻画万物特征的DNA,成了万物存在的新方式。

波普尔在其三个世界的划分中,将世界划分为三种,即物质世界( 世界1) 、精神世界( 世界2) 和客观知识世界( 世界3) 。[11]世界1 指的是一切客观物质及其现象,例如物质、能量、一切有机物和无机物等等; 世界2 是指一切主观精神活动,他认为主观精神世界也是客观存在的。世界3 是指客观知识世界,它是人类精神的产物,既包括抽象的精神产品,如思想观念、语言、文字、书画、哲学社会科学理论和自然科学理论等,也包括物化的人类精神产品,如技术装备、房屋建筑、计算机、汽车、飞机等。数据是客观物质与主观意识共同作用的产物,是人类对客观物质的主观描述,它属于精神产物,这种精神产品在某种尺度下也具有可重复性和客观性。因此,用波普尔三个世界的划分理论,数据应该属于世界3 中的人类精神产品,归属于客观知识世界。

就像主观知识脱离主体之后就变成了客观知识一样,数据脱离采集者之后也变成了客观知识。大数据是海量规模的数据聚集在一起而形成的庞大数据集合。这些数据被智能终端自动采集或人类手工采集下来之后,就脱离了数据采集者而成为数据尘埃,并不断积淀为一个数据世界,成为一种人工化的客观存在,这种存在我们可称之为数据实在。由大数据形成了数据实在,这种新实在引起了客观世界构成成分的变化,更增加了世界3 的新内容。数据实在的形成带来了需要哲学研究的许多新问题,给哲学本体论研究带来了新课题。

参考文献

[1]FLORIDI L.Big data and their epistemological challenge[J].Philo.Technol,2012(25):435-437.

[2]KITCHIN R.Big data,new epistemologies and paradigm shifts[J].Big data&society,April-June,2014:1-12.

[3]罗素.西方哲学史:上卷[M].何兆武,李约瑟,译.北京:商务印书馆,1963:62.

[4]老子.道德经[M].第四十二章.

[5]格雷克.信息简史[M].高博,译.北京:人民邮电出版社,2013.

[6]诺伯特维纳.控制论[M].郝季仁,译.北京:科学出版社,1962:133.

[7]恩伯格,肯尼思库克耶.大数据时代[M].盛杨燕,周涛,译.杭州:浙江人民出版社,2013.

[8]彭特兰.智慧社会:大数据与物理学[M].汪小帆,汪蓉,译.杭州:浙江人民出版社,2015.

[9]涂子沛.大数据:正在到来的数据革命[M].桂林:广西师范大学出版社,2013:88.

[10]康德.纯粹理性批判[M].邓晓芒,译.北京:人民出版社,2004:71-72.

数据本质篇2

刘慈欣的短篇小说《诗云》，讲述了一个外星超级智慧生命体试图用“大数据”征服中国古典诗词的故事。小说想要表达的是，技术是反诗意的，对于依赖个体心灵和内在情感的诗歌来说，技术永远无法触及诗歌的本质。日前，《清华附小六年级学生用大数据分析苏轼写了论文》的报道又引发众人关注。这促使我们思考两个问题：将诗词作为“数据”进行检索研究是否合理?让小学生通过大数据分析进入诗词是否合适?

诗词与大数据能否相得益彰，要从二者各自的特质说起。无论从创作还是从赏析的角度，诗词都是一项主观性很强的艺术，正所谓各言其志，诗词中大多寄托着作者的情感体悟，而诗作的水准则由诗人的才性神思所决定。诗词中的意象和兴味往往只可意会，需要在读者和作者之间达成某种精神上的默契。

对诗词的欣赏研究，不能一味寻章摘句，因为一首诗词首先是一个有机整体，必须营造出自洽而完整的意境。然而，大数据分析是一项纯客观的.方法，是对客观数据的碎片化处理：如对苏轼全部诗词进行分词研究，再从中分析出高频词，此时苏轼的诗词是以“数据”形式呈现的，仅仅是一个个语词的序列，而非气脉浑成、寄托深远的活泼泼的整体———这不啻为对诗词的解构。

不可否认，大数据在检索、统计、定位方面的高效便捷对研究工作确有帮助，但再先进的技术手段也不能代替对作品本身的体察涵泳，正如捷径无法代替苦功。对苏轼诗词中高频词的搜索定位，只能得出某些外在印象，无法细腻深刻地触及其内涵和义旨。

小学生应该接受怎样的诗词教育?事实上，我国古代一直有绵延不绝的“诗教”传统，古典诗词的关键功能在于涵养人的性情，使之归于温厚。正如钱穆所说，文学作品中包含了作家的全部人格，它对读者的劝诫安慰如朋友兄弟般亲切。伟大的诗人修辞立其诚，吐露真性情，读者阅读其诗，不仅会为其真情感动，也很容易为其人格及人生境界感动，而心向往之。小学生使用大数据固然有助于培养科学精神和逻辑思维能力，但这与诗词的教育旨趣相异。拿苏轼诗词来说，让孩子们将其看作有血有肉、丰富多彩的艺术作品，从具体作品中感受苏轼的悲欢离合、开朗豁达与家国情怀，并进一步培养起对中国传统人文精神的感知力和理解力，不是比作为大数据视野下的客观对象而得出粗浅认知，要更有意义吗?

《庄子天地》篇中激烈地拒斥技术，认为技术的滥用会导致心灵的遮蔽。那么小学生使用大数据，有没有技术的“滥用”之嫌?这个问题姑置不论，重要的是，孩子们的蓬勃诗心不要就此遮蔽。

(选自《文汇报》10月22日，有删改)

1. 下列关于原文内容的理解和分析，正确的一项是( )

A. 中国古典诗词的主观性极强，写的都是作者自己的人生故事，能流露出作者的人格。

B. 对诗词的欣赏研究只能采取整体感知的方法，而大数据无法对诗词进行整体化处理。

C. 大数据分析只是一项纯客观的技术方法，它无法触及诗词的内涵和意旨等本质特性。

D. 用大数据研究诗词只能获得理性认识，而不能与诗词内外的自然生命发生情感共鸣。

2. 下列对原文论证的相关分析，不正确的一项是( )

A. 文章以一篇小说和报道为例，提出了两个问题，表明了作者“反技术”的态度。

B. 文章通过对诗词和大数据各自特质的分析，论证了大数据研究诗词的不合理性。

C. 文章将体察涵泳与大数据分析的结果进行对比，论述了感性启发对诗词教育的意义。

D. 文章论述两个论题之后，指出了大数据对孩子诗心的危害，回应了开头提出的疑问。

3. 根据原文内容，下列说法不正确的一项是( )

A. 用大数据来处理诗词，没有注意到诗词主观性、整体性的特质，是对美的肢解。

B. 诗词中的意象和兴味往往只可意会，所以读者无法感知、理解诗人的人文精神。

C. 大数据分析容易使学生丧失“感动”的能力，因而很难真正进入诗人的情感世界。

D. 在诗词教育中应通过情感教育来帮助人涵养性情，塑造人格，提升人生的境界。

参考答案

1. C

2. A

用数据探索健康本质篇3

目前，谷歌公司的GoogleX实验室正在实施一个大胆的创新项目——基线计划，主要目的是确定人类健康的定义。谷歌公司最近发起的这项研究，旨在通过对大量被试者进行医学检测以确定健康人群和非健康人群之间的区别，检测指标包括蛋白质、基因突变等。如果研究取得预期结果，那么医生便可以更早地诊断疾病，从而对病人提前进行临床治疗，不用等到疾病发作再采取措施。该项目希望通过检测将表面上健康但实际上已经存在健康风险的人从人群中区分出来。

可是，哪些检测指标能帮助医生提前诊断出疾病呢？目前还不清楚，但这就是谷歌公司基线计划的主要研究对象。前不久《华尔街日报》有文章将这一项目描述为谷歌公司“至今最雄心勃勃和艰难的科学项目”，是“迈向未知的巨大一步”。

基线计划将如何展开研究

这一研究的主要方式是对受试者进行全基因测序并记录其父母的遗传史。还会记录其自身如何代谢食物、药物的信息以及应激后心率变化、生化改变对行为和基因的影响。

从分子角度了解人体健康状况一直是现代医学研究的重点，但在基线计划之前，并没有一个项目可以将基因、分子、行为等多个研究领域全方位“收入囊中”。目前，该计划的前期研究已经对175人的血液和唾液进行了详细分析，获得了初步效果。GoogleX实验室现在与斯坦福大学医学院、杜克大学合作将受试者扩大到几千人，新研究计划除采集生物样本外，受试者还要佩戴可穿着的医疗器械，如血糖传感隐形眼镜等。

目前负责领导这一项目的是GoogleX实验室生命科学首席医学家安德鲁·康拉德。康拉德曾任临床研究公司首席科学家，他曾经开发出廉价的艾滋病病毒测试方法，2013年加入谷歌公司。康拉德通过具体案例对基线计划做出解释：例如，有的人可能缺乏某些代谢脂肪的酶，更容易发生动脉硬化，容易死于冠心病。如果基线计划项目能确定这类人群的特异性生物标记物，临床上就可以区分哪些人容易患心脏病，从而对其采取预防性治疗或通过调整饮食等方式提高他们的身体对脂肪的代谢能力，减少心脏病的发生。

康拉德认为，这是生命科学领域最大胆的研究项目，人体十分复杂，科学家对DNA或各种蛋白质的相互关系以及环境对这些相互关系的影响都不十分了解，尤其是从整体上来说几乎完全不清楚。

表面上，基线计划项目似乎没有什么特殊，许多生物技术公司早就开始对人的基因和代谢物进行组学分析，并结合病情进行跟踪分析。但是谷歌公司的最大特色是拥有巨大的计算分析能力，这对于多组学和多层次分析尤其重要，这正是谷歌公司的最大优势所在。

基线计划将如何重新定义健康

杜克大学心脏病学家罗伯特·卡里夫也参与了基线计划的研究。据他透露，该计划将在2～3年内，从美国的帕洛阿尔托市、北卡达勒姆市和坎纳波利斯市招募1万名受试者，将对受试者进行全基因测序、血液蛋白组和代谢组学分析，并建立电子病历。受试者被分为患者和健康人两类，最重要的目标是寻找新的生物标志物，以获得早期诊断某些疾病的分子线索。比如，心脏病和癌症发生过程都需要一段时间的潜伏，如何在没有任何临床症状前就进行诊断，目前十分困难，但这个研究计划就是希望能实现这个目标。卡里夫说：“这个研究计划将能帮助科学家更好地定义健康。”这听上去口气颇大，不过这也符合谷歌公司追求“大胆创新”的特色。虽然这一项目不是以具体产品和服务为目标，但将加快互联网公司进军医疗保健领域的步伐。基线计划团队将由70多名物理学、生物化学、光学、成像学、分子生物学等方面的科学家组成。杜克大学和斯坦福大学组成的审查委员会将负责伦理学审查和监督，以确保其数据只能用于医学研究的目的。

从技术细节上看，谷歌这次研究的本质就是通过生物分子分析技术（从基因蛋白到各种代谢物的连续分析）寻找到某些疾病早期或超早期的分子标记，并用这些标记来指导将来的临床实践，真正实现“医治未病”的目的。这一想法确实非常具有创新性，也是引领医学生物学潮流的壮举，笔者认为也许5年内能看到其理想实现。

以谷歌为代表的一直走在科技创新前沿的互联网公司在改变着人类生活的各个层面，从信息渠道（搜索引擎）到沟通工具（推特、微信），从虚拟世界到现实世界（物联网、无人驾驶汽车）……下一步，互联网整合下的大数据，真的会重新定义人类的健康吗？我们将拭目以待！

数据本质篇4

1 煤矿本质安全模糊综合评价模型

煤矿本质安全管理综合评价指标体系涉及人、机、环境、管理四大单元, 评价对象的某些评价因子往往带有一定程度的模糊性, 即具有非线性特征。它没有十分明确的界限和清楚的外延, 不存在绝对的十分精确的肯定与否定。煤矿本质安全管理具有不确定性因素多, 模糊性大, 动态变化复杂等特性, 人们的认识不同, 对这些因素的褒贬程度也不尽相同, 很难直接用统计学的方法确定这些因素的具体数值。

模糊综合评价法在利用评价矩阵计算各指标的隶属度时, 取评价指标与隶属度的乘积的最大值, 采用这样的方式有可能会丢失评价信息。此外, 此评价结果得到的只是各级别的评价结果的隶属度, 评价结果不够直观。因此, 对此算法进行了改进, 在利用评价矩阵计算各指标的隶属度时, 按矩阵运算的方法进行。对于最后得到的评价结果的隶属度进行量化, 得到直观的评价值。这样能极大限度地保留原始的评价信息, 并通过了隶属度的量化, 让评价结果更加直观。改进的模糊综合评价法的具体实现方法如下:

步骤1:确定评价因素集。

在表1层次中, 分别用t1, t2, t3, t4来表示人员的不安全因素、机具的不安全因素、环境的不安全因素、管理的不安全因素, 则得评价因素集T={t1, t2, t3, t4}。类似地, 在分指标层中分别用u101, u102, …, u412, u413来表示操作不安全性, 现场指挥的不安全性, …, 没有有效的本质安全文化, 其他管理的不安全因素, 则得评价因素集U={u101, u102, …, u412, u413}。

确定指标集对应的权重集Q={q1, q2, …, qm}, 按照层次分析法和BP网络法, 求得了各指标和分指标的权重。再求其平均值, 就得到各指标和分指标的综合权重, 如表1所示。

步骤2:确定评语集。

对指标采用5级评语:煤矿本质安全管理Ⅰ (v1) 、煤矿本质安全管理Ⅱ (v2) 、煤矿本质安全管理Ⅲ (v3) 、煤矿本质安全管理Ⅳ (v4) 和非煤矿本质安全管理 (v5) 五个档次, 并用评语集V={v1, v2, v3, v4, v5}表示。

确定评语集对应的数值集N={n1, n2, n3, n4, n5}。

步骤3:建立隶属函数, 确定隶属度。

构造隶属度子集Ri={ri1, ri2, ri3, ri4, ri5}, 其中:ri (i=1, 2, …, m) 指评价因素集中第i个指标对应评语集中每个v1, v2, v3, v4, v5的隶属度。

根据指标的不同性质, 隶属函数分为两种情况:定量指标的评价和定性指标的评价。

(1) 定量指标的单因素评价隶属函数。

ui的取值范围与评语集vj相对应的5个区间 (-∞, 60] 、 (60, 70] 、 (70, 80] 、 (80, 90] 、 (90, ∞] 。若将ui看成是某个区间上的普通集合, 则会造成两个区间边缘点数值相差不大, 而评语相差一个级别的不合理现象, 为了消除这种不合理现象需作模糊化处理。具体做法是:设在中间区间的中点其隶属函数取最大值1, 而在相邻两区间的中点其隶属函数取最小值0, 连接1与0, 得ui对评语等级vj的隶属函数μvj (ui) 。

(2) 定性指标的单因素评价隶属函数。

对于定性指标的单因素评价较难以量化, 常采用模糊统计的方法。即让参与评价的各位专家按预先划定的评价标准给各评价因素划分等级, 然后依次统计各评价因素属于等级vj的频数Mij, 其隶属函数如下:

undefined

其中:Mij是u1∈v1的次数;n是参与评价的专家人数;μvj (ui) 是隶属函数。

则undefined为指标ui的单因素评价, 它是评语集V上的模糊子集。

步骤4:计算评价矩阵。

对于每一个评价指标ti都可以得到一个隶属度子集Ri, 那么m个Ri构成一个T×V域上的m×5矩阵R, 即

undefined

。

步骤5:计算评判值。

计算T的用隶属度表示的评判值:

undefined

。

步骤6:如还有上一级评价指标, 则用下一级求得的所有评判值S构成新的评价矩阵R, 并重复步骤4和步骤5, 直至最高一级, 则可得到模糊综合评价的结果S。

步骤7:利用

undefined

, 可以得到模糊综合评价的量化结果。

2 模糊数据挖掘

中国的煤矿经过几十年的安全管理和生产肯定有海量的安全评价数据, 这些数据已经成为煤矿管理部门管理和决策的宝贵资源, 从这些数据中发现有价值的信息成为一项非常艰巨的任务。实际上, 在挖掘过程中要想把这些数据精确地分类是不可能的, 也没有必要。现实的分类往往伴随着模糊性, 所以用模糊理论来进行聚类分析, 然后再进行预测, 会显得更自然, 更符合客观现实。这就是本文提到的模糊数据挖掘。对煤矿本质安全评价数据仓库的不同层次进行不同规则的推断, 以得出对决策有用的规则, 有利于领导的决策。运用模糊理论来进行数据挖掘的具体步骤如下。

2.1 数据标准化

在搜集了大量煤矿本质安全数据资料的情况下, 建立待分类的样本集U, 把要分类的对象称为样本如u1, u2, u3, …, un, 则undefined为样本集。具体定性本质安全评价指标量化后的属性数据称为样本指标, 设有m项指标, 这可用m维向量描述样本, 用集合表示为:u1= (xi1, xi2, xi3, …, xim) (i=1, 2, 3, …, n) , 得到原始数据矩阵为

undefined

, 由于采集到的数据往往不是[0, 1] 闭区间的数据, 根据模糊矩阵的要求, 通过下面两个公式将数据变换压缩到区间[0, 1] 上。

(1) 平移标准差变换。

undefined;k=1, 2, …, m) (1)

其中undefined是标准差, undefined是平均值。此时得到的标准化数据x′ik也不一定全在[0, 1] 闭区间之内, 还必须进行下面的变换。

(2) 平移极差变换。

undefined

2.2 建立模糊相似矩阵

标出衡量被分类对象间相似程度的统计量。设论域U={u1, u2, u3, …, un}, 其中每个元素为一个样本, 建立U上的模糊相似矩阵:

undefined

计算rij的方法很多, 在这里采用夹角余弦法, 即:

undefined。 (3)

2.3 聚类分析

常用聚类分类有3种方法:传递闭包法、最大树方法和编网法。传递闭包法用计算机容易实现, 本文用平方法依次求:R→R2→R4→…, 当第一次出现Rk·Rk=Rk时, Rk就是模糊相似矩阵 R的传递闭包t (R) , 即t (R) =Rk。再让λ由大变到小, 就可形成动态聚类图。

3 应用研究

3.1 评价指标体系的建立

煤矿本质安全管理是指在一定经济技术条件下, 在煤矿全生命周期过程中对系统中已知规律的危险源进行预先辨识、评价、分级, 进而对其进行消除、减小、控制, 实现煤矿人-机-环境系统的最佳匹配, 使事故降低到人们期望值和社会可接受水平的风险管理措施与办法。本质安全管理的重点是对危险源的管理, 对其辨识过程应考虑人、机、环境、管理等4个方面的不安全因素。煤矿本质安全评价二级指标体系模型, 如表1所示。

3.2 煤矿本质安全的模糊数据挖掘

为探究煤矿本质安全评估数据库中评估等级同评估项目之间的规则知识, 以及这些规则对煤矿本质安全工作的影响, 先选取中国某一产煤区, 采用现场调查和问卷调查方式对随机抽取的10个煤矿2007年安全等级的评估进行讨论, 找出评价指标同安全等级之间的规则知识。为使问题简单化, 用上面的模糊综合评价法编制的程序分别计算10个煤矿4项一级指标的量化得分和煤矿安全评估等级, 得到的数据如表2所示。

由表2得原始数据矩阵:

undefined

经过公式 (1) 做标准差变换得R′4×10, 此时得到的标准化数据不全在[0, 1] 闭区间之内, 再用公式 (2) 做极差变换后就得到模糊矩阵R″4×10:

对R′4×10用公式 (3) 计算出模糊相似矩阵R, 用平方法得到R的闭包:

取λ=1, 则分为4类:{t1}, {t2}, {t3}, {t4};

取λ≥0.711, 则分为3类:{t1, t4}, {t2}, {t3};

取λ≥0.512, 则分为2类:{t1, t4}, {t2, t3};

取λ≥0.2, 则分为1类:{t1, t4, t2, t3}。

用F统计量确定最佳阈值λ≥0.711, 此时关联强度最大, 得主条件属性为{t1, t4}。其中, t1为人员的不安全因素, t4为管理的不安全因素。可见, 对于煤矿本质安全评估数据库经过用模糊聚类方法进行分析得出, 对于煤矿安全等级T这一结论属性而言, 主条件属性集为{t1, t4}。

下面用粗糙集知识来进一步考察由主条件属性集得到的分类规则。

基于安全等级这一结论属性集T的记录值, 可将表2划分为5类, 分别用集合K1, K2, K3, K4, K5表示, mi表示煤矿编号为i的记录。

K1={m9, m10};K2={m1, m2, m3, m4, m5};K3={m6, m8};K4={m7};K5=ϕ。

当mi (i=1, 2, …, 10) 作为分类条件, Kj (j=1, 2, 3, 4, 5) 作为分类结论条件时, 归纳总结后可得如下的分类规则:

L1: (t1≥90) ∨ (t1≥80) ∧ (t4≥90) ⇒T=“本安Ⅰ”;

L2: (t1≥90) ∨ (t1≥70) ∧ (t4≥80) ⇒T=“本安Ⅱ”;

L3: (t1≥70) ∨ (t1≥60) ∧ (t4≥70) ⇒T=“本安Ⅲ”;

L4: (t1≥60) ⇒T=“本安Ⅳ”。

综合以上4条规则分析如下:当人不安全因素得分t1≥90时安全等级T一定为“本安Ⅰ”;人不安全因素t1得89～80分时安全等级T一定为“本安Ⅱ”;人不安全因素t1得79～70分时安全等级T一定为“本安Ⅲ”;人不安全因素t1得69～60分时安全等级T一定为“本安Ⅳ”。从以上分类规则可知人不安全因素 (t1) 为互信息最大的特征属性。即凡是注重人不安全因素的煤矿, 安全等级高, 因此人不安全因素要放在煤矿本质安全首位, 即煤矿要以人为本, 注意人的安全教育和培训等。

由于该地区为国家新兴煤矿能源基地, 煤矿生产装备现代化水平较高, 且该地区地质条件简单, 水、瓦斯、煤尘等环境因素引起安全隐患较少, 故在本质安全评估指标体系中, 人不安全因素和管理不安全因素两方面非常重要, 每个煤矿都应引起高度重视。显然这与已有的研究成果和实际相吻合。

通过对煤矿本质安全管理综合评价, 可以确定煤矿某一时期的安全生产状况, 用于指导下一时期的安全管理工作, 其结果可作为煤矿本质安全管理评价的依据, 可以改善目前的安全管理状况。

4 结束语

本文使用模糊数据挖掘发现煤矿本质安全等级同评价指标之间的规则知识, 依据该规则知识对挖掘结果进行有效的评价, 并且在分析、预测方面有着很大的优势, 从而可以帮助煤矿管理决策者找到影响该地区煤矿安全的关键因素。

参考文献

[1]梁保松, 曹殿立.模糊数学及其应用[M].北京:科学出版社, 2007:67-78.

[2]洪月华.基于模糊综合评价的课堂教学质量数据挖掘[J].计算机科学, 2008, 35 (2) :154-170.

[3]杜春宇, 陈东科, 杜翠凤, 等.煤矿本质安全管理综合评价体系模型与应用[J].重庆大学学报, 2008, 31 (2) :197-201.

本文来自 360文秘网(www.360wenmi.com)，转载请保留网址和出处

【数据本质】相关文章：

5本质04-09

本质特征05-11