您的位置:首页/学科/学科十二/图书情报学/正文/
分享到:

数据科学及其对情报学变革的影响

2019-02-22 09:59:04 责任编辑:璇子 文章来源: 情报学报 浏览次数: 1419

     1 引言   

  在当前大数据时代,数据不再是科学领域研究的成果,而成为科学研究的重要基础,在商业领域,对数据的重视程度也从简单的处理对象演变为重要的战略性资源,如何对数据进行有效的管理、开发与利用,引起了学术界对以数据为中心的科学——数据科学的积极探讨。越来越多的学者意识到:探索数据是人类认识和理解真实世界的最有效方法,其不同于以自然界为研究对象的自然科学,也不同于以人类社会为研究对象的社会科学,却成为推动自然、社会和人文科学发展的动力。但数据科学作为一项新的科学,目前还有很多根本性问题没有解决,甚至存在很多问题还未提出,对数据科学的定义以及是否为一门独立学科的问题也尚无统一界定。1974年,丹麦计算机科学家、图灵奖获得者Peter Naur在其著作的Concise Survey of Computer Methods中首次定义数据科学(Data Science)是“一门处理数据的科学”[1]。之后《数据科学》杂志界定“数据科学几乎是与数据所有有关的研究内容,包括数据的采集、组织、分析与应用等”[2]。Moraes等[3]认为数据科学一个重要目标是从跨学科领域的不同元素、技术和理论中概括和提炼知识,并创造新的数据产品。Mondal[4]认为数据科学即是大数据建模,主要是通过应用计算、统计分析及可视化来洞察数据。王曰芬等[5]也从“目的与过程结合”“方法与领域结合”以及“人才与需求结合”三个角度对已有相关成果定义的数据科学内涵进行详细的概括与总结,得出由于面对的科学问题不同,导致不同领域学者对数据科学的内涵界定、研究方法及实践过程描述都不尽相同。但数据科学具有较强的跨学科特性却成为学术界的共识。   

  数据科学是在计算机科学、统计学等相关基础理论以及社会科学、自然科学等领域专业理论进行继承、扩展与创新兴起的一个交叉性科学领域,主要研究由于大数据的规模效应所引起的数据处理复杂性问题。在国内专书出版的《数据学》[6]中也明确指出数据科学的两个主要内涵:一是针对数据本身,研究数据的各种类型、状态、属性及变化形式和规律;另一个是为自然科学和社会科学研究提供一种新的方法,称为科学研究的数据方法,其目的在于揭示自然界和人类行为现象和规律[7]。但由于不同学科的数据差异性和工作任务要求不同学科需要建立具有自身特色的数据科学,培养各自领域的数据科学人才。情报学科也需要结合自己的历史使命、时代特征与发展,寻求践行大数据的最佳范式,通过引入数据科学的相关基础理论、技术与方法,催动情报学的变革与发展。因此,有必要在了解数据科学的历史形成以及学术界对数据科学体系探索和诠释的基础上,分析数据、数据科学与情报学之间的内在逻辑关系,把握情报学与数据科学融合交汇的研究前沿,从技术方法、体系建设及应用实践等角度探究数据科学对情报学范式转型的重大影响,进一步提出数据科学研究视角下情报学发展应该重点关注的研究方向。   

  2 数据科学相关概述   

  2.1 数据科学的科学定位   

  任何领域的研究,若要成为一门科学,需要研究共性的问题[8],而数据科学能否作为一门独立的学科存在也非常值得探讨。从一个毫无争议的观点——数据科学是一门数据驱动的交叉性科学研究角度分析,其作为一个容纳计算机科学、统计学、信息科学、数学等学科的组合体,在以数据研究和应用为首要任务和目标的导向下,驱动和关联着各个学科并形成有机统一。而数据科学研究需要依附于特定、具体的领域才变得更有意义,无法对交叉学科的领域知识深入理解,单纯地去设计脱离实际应用的数据分析方法研究很难有广阔的发展前景。因此,从目前来看将数据科学不再作为一个独立学科存在,而看作是各个交叉科学的载体会更为合理。但相关学者试图从学科建构的角度将数据作为一个“自然体”(Data nature)进行研究,并提出了“数据界”(Data universe)的概念,其主要是从数据的基本规律、关联与分类以及数据安全与主权问题等方面展开研究。然而,提炼“数据界”共性关键科学问题仍需进一步的实践积累与探索,需要通过更多的“白盒研究”抽象出通用性较强的“黑盒模型”与普适规律。尽管无法一致明确数据科学是否能够成为一个独立的学科,但数据科学仍具有自己的基本内涵和外延,丝毫不影响对数据科学的研究对象、科学性质、学科体系以及研究方法等内容进行探索。   

  对数据科学的科学定位需要在界定数据科学基本内涵的基础上,明确数据科学的主要研究内容、研究范围、知识结构、学科体系以及与其他传统学科之间的关系等问题。不同学者从不同的认知角度定义了数据科学的基本概念,但都一致认可数据科学是一门研究数据的科学或关于数据的科学,是探索网络空间数据奥秘的理论、方法和技术[9],包括用数据的方法研究科学以及用科学的方法研究数据。尽管数据可作为信息和知识的符号表示或载体,但数据科学基本的研究对象是数据,而非信息与知识,主要是通过研究数据的特征与规律来获取对自然、生命和行为的认识,进而通过对数据的解析化、集成化、模型化与智能化形成信息和知识。因此,数据科学的研究对象、研究目的与研究方法等与计算机科学、信息科学及社会科学等都有着本质的不同。   

  2014年,国家自然科学基金委员会组织的未来五年的“十三五”规划中,特别尝试设立“数据与计算科学”这一专门面向大数据研究的学科方向,主要研究数据的感知、收集、传输、管理、分析与应用的交叉性学科,旨在揭示数据的内在规律,探索数据计算理论、实现从数据到知识的转化,为大数据的科学计算以及在重要应用领域的预测、决策与应用提供基础。而在当前大数据生存时代下,数据科学的基础问题体系本身也就是大数据领域的研究热点,主要解决大数据发展和共性技术问题,并利用大数据技术进行收集、整理、解读和应用大数据。针对数据科学的知识体系问题,朝乐门等[10]指出数据科学是以统计学、数据可视化、机器学习以及某一领域知识为基础,包括数据科学基础理论、数据预处理、数据计算和数据管理。Aalst等[11]认为数据科学具有关联着过程挖掘、大规模分布式计算、可视化分析、行为科学、工业工程、推测学、数据库等不同分支学科融合的理论体系。Moraes等[3]提出数据科学包括信号处理、机器学习、数学、不确定建模、数据工程以及统计学等基础理论。而从数据科学所涉及的学科领域来看,其知识结构不仅仅包括数学、统计学、计算机科学、信息科学等在内的基础性理论,还应该包括社会学、物理学、情报学、生物医学等在内的专业性领域理论。刘潇等[9]参照Warfield提出的科学论域体系,从“基础—理论—方法和技术—应用”四个方面尝试建构数据科学的学科体系结构,如图1所示。至少可以看出,数据科学的基础研究是离不开对相关学科的领域知识与研究方法论的借鉴,其“方法”也主要是针对信息空间—物理世界—人类社会(Cyber-Physical-Society,CPS)三元世界中数据完整链条的探索,包括数据感知与获取、数据组织与融合、数据学习与认知、数据交换与经济等主题的一系列方法或技术,通过研究数据智能的全生命周期,实现“数据—信息—知识—智慧”的转化、互哺与共享。其中,问题或数据驱动而非模型驱动的方法正成为数据科学研究方法的主要特征。另外,数据科学的“应用”层面也不仅仅包括对商业智能的支持、新型数据产业的推动及单一科学研究领域的具体应用,还应上升到国家安全观层面,以关乎国计民生的科学决策、应急管理、环境管理、社会计算以及知识经济为主要应用领域。综上所述,尽管数据科学的术语由来已久,但作为一门新科学正处于萌芽阶段,对数据科学的学科体系、研究边界、研究内容等问题,仍然需要各个科学领域的学者进行集体探索与思考。

 

 

   图1 数据科学的学科体系结构

  

   2.2 数据科学与其他学科的关系   

  数据科学作为一门在多个学科领域基础上孕育形成的交叉性科学,在研究来源于各种载体和形式的大数据产生、扩散、涌现规律等基本问题的同时,还需要探讨数据科学与社会科学、自然科学、生命科学等其他学科领域之间的互动机制,了解数据科学在不同学科领域的实践应用与发展。首先是针对数学、统计学以及计算机科学,之所以将三个学科进行关联以探究其与数据科学的关系,是因为大多数学者[12-14]都认为数据科学与三者之间都存在着某种与生俱来的渊源关系,其基本原理本身根植于数学、统计学以及计算机科学,甚至认为数据科学是三门学科的替代性称谓。数学是各个科学和技术的语言和工具,任何学科都试图构建自身的数据模型,形成完善的“学科数学”体系,数据科学也不例外,且很多学科的关键瓶颈问题也往往是数学问题。马克思曾说过:“一门科学只有当它达到能够成功运用数学时,才算真正得到发展。”数学为数据科学提供了坚实的理论基础,数据科学也为数学与实际应用之间建立起一个直接的桥梁[15],推动了数学各个分支对社会和科学整体服务的影响力。而作为一门研究数据的学科——统计学,统计测度是其立足的根本,同时也是数据科学的重要基础。数据科学正是以科学、准确的大数据统计测度为前提,感知、解读和应用大数据。但区别于统计学以统计样本为对象、量化分析为手段所形成的理论体系和应用架构,数据的复杂性、不确定性和涌现性等特征,使得数据科学在统计测度的实现形式、计量方法以及分析维度等方面都发生颠覆性变化。魏瑾瑞等[16]认为数据科学可看作是统计学在研究范围、研究对象以及分析方法上扩展的结果。李金昌[17]也指出大数据思维下的统计学需要从数据维度、方法维度以及应用维度三个方面进行革新。然而,从某种程度上讲,大数据考验的并不是数学和统计学的基本方法论,而是计算机科学相关技术和算法的适应性,大数据分析的核心关键是如何推动和创新计算机技术与方法以适应这种变革,而数据分析的逻辑并没有发生实质性改变。计算机科学是对经验科学和理论科学中科学方法的补充和优化,数据科学作为一种数据密集型科学,是处理经验科学和计算机科学中出现的大数据处理问题,是对前三种科学的补充[18],其扩展了计算机科学的内涵与外延。综上可见,数学和统计学为数据科学提供理论基础,计算机科学为数据科学提供技术手段,而数据科学却为三者带来新的发展机遇,发挥了其学科优势和实践潜能。因此,它们之间不存在替代或吞并的关系,而是相辅相成,相互促进发展。数据科学也跳出传统学科的范畴,通过将三者有机整合,以形成一套完整的面向大数据分析与应用全链条的知识体系。   

  针对人文社会科学这一庞大的学科群体而言,由于不同学科与数据的关联程度不同,导致数据科学对不同学科的影响作用也存在较大差异。社会学、经济学、管理学、教育学等传统社会科学学科对数据的依赖性较强,大数据所展现的价值会更加显著,而文学、艺术、哲学等学科对内、外在数据的依赖性较弱,导致大数据所展现的价值并不明显。数据科学为人文社会科学的研究模式、思维、方法和手段等方面带来根本性的变革与创新,为社会科学在量化的实证性研究与非量化的解释性研究之间提供了强大张力[19]。欧阳康[20]认为大数据为人文社会科学提供了特殊机遇与挑战,使得人文社会科学的研究模式从“假设出发”向“数据出发”转变、研究对象从“个别样本”向“海量数据”转变、研究方法从“感性接触”向“行为统计”转变、研究目的从“实体规律”向“统计规律”进行转变。孙建军[21]也指出大数据与人文社会科学的无缝融合衍生出三类新的研究思维:“开发与全过程研究思维、碎片化重组研究思维以及计算分析思维”。数据科学为人文社会科学带来新的研究层面,其“科学性”和“规范性”显著增强,且以大规模数据分析、复杂网络分析以及“人文计算”为特征的研究方法逐渐得以采纳。而人文社会科学领域也需要借助数据科学建构起属于自身的“中国话语”,并以其独特价值和独有魅力为人类文明进步提供中国智慧和中国方案。   

  同时,数据科学也为自然科学领域提供了新的研究视角、领域、方法和工具,通过与数据进行交叉融合,激变产生出新的原创性理论、知识、思路和方法,极大延伸了自然科学领域的研究能力。当前,现代科学的一个最大特征就是将数据融入自然科学的研究范式中,借助大数据革命带来的“机会窗口”,试图形成兼具共识性的大数据研究理论与实践范式。在物理学、化学、地球科学和生物学等自然科学领域中对大数据的研究与实践应用已成为一种常态,甚至从某种程度上讲,这些学科的进展依赖于对数据的获取与分析。同时,在数据科学的支撑下,自然科学领域的整个科研范式共同体也得以扩展,极大促进了不同学科科学共同体的深度整合和精细分化,其凝聚力和通俗性变得更强,也使得基础研究的推动因素和利益相关者更加多样化[22]。尽管科研领域中的“马太效应”并未真正得到消除,但数据科学作为一门多个学科交叉之上的共享科学,突破了自然科学与社会科学、生命科学等领域之间的研究界限,通过数据沟通了不同学科领域之间的资源共享。另外,数据科学也给整个生命科学领域带来前所未有的机遇,极大改变生物医学基础研究和医疗实践方法与深度,对医学研究、临床决策、慢病管理以及个性化医疗等都带来颠覆性变革[23-24]。

   尽管数据成为认识世界的源泉,但也不能让数据彻底覆盖人类对外部世界的感知。将数据当作信仰、作为判断事物的唯一标准,就会慢慢走上“数据独裁”的极端化,演变成为“唯数据主义”的思想。大数据时代一切皆可数据化,但这并不意味着世间一切都可以被真正的量化。古希腊哲学家、数据家毕达哥拉斯曾提出“数是万物的始基”,认为数是构成现实世界的本源,将数提升到本体论的认识高度,而近代科学也将数据提高到科学方法论的地位,数据成为科学研究的基本要素,成为人类描述自然、社会的最精确、统一的语言[32]。数据经历了从应用工具性的数据到人类认识自然与社会的依据、基础的科学数据,再到现在“万物皆数据”的数据科学的转变,实质上反映的是人类认识世界能力的变革性提升,而不变的是人类追求对世界实践的客观性、真实性认识。通过数据的分析获得的这种客观认识更多是一种显性知识,而人基于直觉获得的科学知识——意会知识却永远无法被形式化表示为可计算、可编码的数据[33],更多需要通过拥有专业的基础科学背景,经过长期的实践训练才能逐渐培养产生。然而,这两种知识却都应该是世界知识图景的真实“面貌”。美国著名学者史蒂夫·洛尔也特别强调[26]:“即使在大数据时代,经验与直觉仍然会占有一席之地。”所以这两种知识本身就存在着一种矛盾关系,基于数据认识世界根本目的就是挑战如何走出经验、印象的窠臼,而单纯只依赖数据却又无法真正地洞察现状背后的内在关系。说明数据永远属于客体“物”的范畴,而要发挥“物”的价值必须有主体“人”的参与,也从侧面反映出数据科学与其他基础学科之间并不是替代或吞并的关系,而是相辅相成,相互促进发展。   

  3.2 数据与情报学   

  我国情报学研究总体上是沿着“事实—数据—信息—知识—情报—智慧”的范式路径进行层次推进,并认为情报学主要是以信息、知识和智能三个维度为导向探讨情报运动规律的科学研究[34-35]。由于传统情报学研究更多是基于文献数据(文本数据)的结构化数据,致使情报学对数据本身的变化形式以及规律研究较少,更多是从高端视角探究“信息—情报、知识—情报、智能—情报”三条路径上的深化前进。而在当前大数据时代,对于“数据”这一术语的裁定、范畴等都发生了根本性变化,数据资源的边界越来越模糊,数据的深度、广度及规模都在无限扩展与延伸,仍然坚持基于文献和信息的情报工作,无法充分发挥网络和大数据时代情报工作“耳目、尖兵、参谋”的作用。马费成先生在2017年10月29日南京举办的“情报学与情报工作发展论坛”上讲到“大数据环境的变化和新兴技术的出现,使得我们不能再继续从高端上去研究情报学,而是需要从事实、数据和信息中直接挖掘解决实际问题的方案、知识和情报,这是当前情报学研究一个非常重大的变化。”这说明情报学研究需要综合考虑多种数据源,并注重新型数据资源的分析,不能够只强调以传统“信息链”为参考的单一链环,而应该不断地融入循环链、业务链和决策链等工程化或导向性思维,以实现情报研究路径的动态进阶,如图2所示。而根据情报信息链理论可以看出,数据离情报端距离较远,情报界通常不会将数据作为情报研究的直接对象,认为情报无法直接转化为情报,或者说数据不具备直接意义上的情报价值,只有经过对其进行组织、归纳与整合,赋予明确的意义后,才能转化为信息,最后经由信息形成情报[36]。而在当前“数据为王”的时代,数据概念不断被泛化,数据来源、内容与形态都得以不断丰富,数据已成为“信息”的代名词,其更接近于情报链中的“事实”端,可直接转化为情报,不再需要继续遵从数据—情报转化的线性复杂过程[37-38]。因此,可将数据直接纳入情报学的研究对象中。上海图书馆副馆长刘炜在2017年11月30日武汉举办的“面向数字人文的智慧数据建设专题研讨会”上重新界定了“智慧数据”(Smart Data)这一新的概念:具有一定格式、通常自带语义或程序,在一定的环境条件下可以独立产生行为和结果,或作为进一步整合分析或采取行为的基础。认为智慧数据是有语义的、可计算的,能够自主行为的信息单元,并归纳概括为三种智慧数据:一种是作为商业营销的智慧数据,从数据中获取智慧(Data Science→Smart Data);一种是工程实现的智慧数据,向数据挖掘智慧(Big Data+Analytics→Smart Data);另一种是计算对象的智慧数据,将智慧赋予数据(Explicit Coded Semantic Data→Smart Data)。曾蕾教授[39]也指出智慧数据是一种可信的、情景化的、相关联的、认知性的、预测性和可利用的数据,是基于大数据的方法,解决unknown-unknowns问题(即“不知道自己不知道”的问题),而非known-unknowns问题(即“知道自己不知道”的问题)。因此,当前所说的“数据”已经不再是过去的数据,而应该是更加有意义(情境)的语义单元,是信息、知识以及语义三者的集合体,通过数据可直接挖掘、推演出智慧,而对于传统信息链这种新的演化与升华过程,可理解为大数据环境下的情报生态观。对于情报学研究的数据生态圈而言,传统的数据获取方式以及基于固定数据积淀的研究路径已不能够满足现代情报服务的新要求,需重新审读“科学始于数据”这一新型范式,将情报服务的数据基础逐渐向数据全息化、数据来源的多元化路径扩展,从数据资源的深度、广度和宽度入手,不仅仅重视科技报告、科技文献、专利等传统科技资源的建设,还需要重点关注互联网平台数据、舆情数据、社会媒体数据、社会管理数据以及事务系统数据等新型资源的开发与利用。其中,科技数据、社会数据、政府数据和网络数据等各类大数据都应该成为情报学研究数据生态圈的关键组成部分[40]。

   图2 大数据环境下的情报生态观   

  同时,三元世界(Physical-Cyber-Social,PCS)理论的提出[41]也为情报学数据生态圈的构建提供了数据来源与信息获取的理论性指导,大数据作为联系物理世界、信息空间和人类社会的纽带,为三元世界的交互与融合提供了可行路径。王飞跃[42]提出基于ACP(人工社会+计算实验+平行执行)的平行情报体系,认为单纯依靠物理世界中的资源,无法有效地完成智能情报工作所面临的主要任务,需要引入更为复杂的人、机器与信息融合一体系统,即信息—物理—社会融合系统(Cyber-Physical-Social System,CPSS)[42]作为“激活”情报工作的基础平台和生产设施,从而保障平行智能情报工作的得以实现。而借助三元世界理论重新审视情报学信息链的演进过程,发现w1就是客观的物理世界,w2是指人的认知世界,而w3就是指人工世界,即所创造的知识与情报空间,这就是英国哲学家波普尔所提出的“三个世界”理论。梁战平先生[43]认为“信息”(Information)是连续体的概念,在信息链上既具有面向上游的物理属性,又具有面向下游的认知属性。因此,可将“事实”和“数据”作为人类物理世界的一个映射,“知识”与“情报”是人类认知与分析的结果,属于人工产品,为第三世界,而从w1向w3的认知过程属于第二世界,具有双重属性的“信息”则是认知的桥梁。然而,一个学科数据基础的扩展往往与新技术环境的变化存在着密切关系,大数据时代情报学的数据生态圈也应该向全息化数据转变,以三元世界中的大数据作为研究对象,探究三元世界中数据的资源类型、分布空间、表现形式等特征,实现对物理世界、人类社会与信息空间中的结构化与非结构化数据的感知与获取。从单一结构化数据的采集和获取转变为加入更多非结构化数据将会是情报学研究的必然趋势[44]。三元世界的逻辑关系表现为:物理世界与人类社会空间中的元素或数据通过协同感知与交换共享传输到信息空间,而信息空间通过对数据进行组织、融合与分析,进而反向指导物理世界和人类社会中的决策行为,如图3所示。物理世界和人类社会既是信息空间的数据来源,也是信息空间分析结果的具体应用场景,三者之间相互耦合交融,共同形成一个有机整体。同时,三者又是相对独立的内聚模块,信息空间形成从数据获取、信息组织、信息融合到信息服务的内循环,物理世界和人类社会则是该数据循环关联的外部实体和负反馈形成的重要成因。相比于以往更加强化物理时空数据、社会舆情数据等对管理信息数据的反向修正作用。而在数据层面,通过对三元世界中数据进行协同感知与获取,在对业务系统影响最小的情况下实现元数据或数据的无缝抽取和采集,同时也实现数据处理对业务流程动态化和差异化的适应,使信息空间对现实世界的映射不再是单一、直接的对应关系,而是建立在数据处理基础上具象化的逻辑呈现。

内容摘要:数据时代,科学界倡导建立属于不同科学领域的数据科学,以形成具有学科差异化、特色化的数据科学研究范式与思维模式,情报学也应积极吸纳数据科学的理论、技术与方法,以催动情报学的变革与发展。在把握数据科学的学科内涵、理论体系与方法论的基础上,探究数据、数据科学以及情报学三者之间的内在关系,从理论逻辑、技术方法与实践应用等方面分析数据科学对情报学研究范式转型的重大影响,并指出在当前大数据与数据科学发展视角下情报学应该重点关注的新课题。

关键词:

作者简介:

   图3 信息—物理—社会三元世界的逻辑关系   

   3.3 数据科学与情报学   

  类似于数据科学,情报学也是一门跨学科性和多学科性非常明显的学科,其研究主体涉及图书馆学、管理学、计算机学、经济学、军事学等众多学科人群。虽然两者都比较关注从数据到知识到智慧再到决策方案的全谱段,关注以大数据为基础,依靠计算分析,致力于知识发现与预测、支持决策分析和政策制定的理论、方法、技术和服务机制,包括基于各种类型大规模数据的数据挖掘,知识发现和情报研究的新技术和新方法;基于知识化组织和支持复杂分析的基础知识设施建设和知识系统建设;知识分析与计算驱动的科研、教育、管理和服务流程与决策优化技术等。但数据科学与情报学在研究对象、学科内涵、基本任务以及发展目标等方面都存在着较大差异,如表1所示。首先,数据科学完全是以数据为驱动的科学,数据催生了数据科学的产生,主要是以探测数据世界的奥秘和规律为目的,更加关注于分析数据,并从数据中提取知识用于决策。而情报学不仅仅是研究数据本身,还包括研究信息的一切,从信息的产生、传递、采集、组织、分析与利用等全过程。更宽泛地讲,情报学的研究范围还包括信息和人、社会之间的相互作用,如信息经济学、信息生态学等。而单纯从研究对象角度看,也不能将数据科学看作是情报学的一个子集。情报学基本任务始终是从技术、经济、人文等角度全方位地研究和解决由现代“情报爆炸”所带来的情报积累与社会利用之间的尖锐矛盾,以有效开发与利用情报资源。而数据科学的基本任务则是聚焦大数据分析与处理的核心基础与共性关键技术研究,力求在分析基础、处理算法、真伪性判定、结合典型领域的示范应用等方面取得突破,从而为各行各业大数据应用提供科学支撑和共性技术支撑。在教育课程体系设置方面,情报学更着眼于以情报为主导,不仅设置通识的情报产生前期的信息采集、组织、处理、分析、服务的理论方法和技术课程,也更加注重设置培养学生的情报组织、产生、分析等理论与方法的课程,培养学生敏锐的情报意识,以提升学生的情报素养,增强学生的情报能力。在2017年10月29日由南京大学承办的“情报学与情报工作发展论坛”上达成了情报学与情报工作发展《南京共识》,全国各地百余名情报领域专家提出重新定位当前情报学科的发展目标:“从国家经济、社会发展与人民安全的需要出发,将各类情报联为一体构建大情报科学,努力将情报学发展成为具有智库功能的学科,在国家创新驱动发展战略和总体国家安全观的框架下建设情报学学科,走出一条有中国特色的情报学发展道路。”然而,数据科学能否作为一个学科仍值得商榷,其发展的最终目标是构建起属于自身的理论体系、知识结构与方法论,形成兼具共识性的大数据研究理论与实践范式,类似数学、统计学及计算机等学科,努力成为各门学科通用的基础工具性学科。

  在前面阐述数据与情报学关系时,更多的是强调将数据纳入情报学研究对象中,不仅可以扩展情报学的研究范畴,而且还有助于情报学融入大数据潮流中,这也是情报学自身发展的需要。而这种做法也必然会引人质疑:是否会导致情报学更加泛化,造成与正在兴起、以数据为中心的数据科学的交叉重叠?将数据作为情报学研究对象,并不是对现有情报学的颠覆与否定,而是调整情报学研究的重心。相关学者提出以序化论、转化论、融合论为核心理论对情报学科体系进行重构,提出以序化为本职工作,以转化为突破,以融合为生长点的发展模式[48]。这三论可以作为情报学研究的基础理论,但是以序化为核心必然会导致情报学与数据科学雷同[49],而将情报学研究重心放在信息链的转化关系上,并重新审读大数据环境下信息链的演化与升华过程,可厘清两者之间的区划,也凸显情报学研究的特性。而融合论依然是情报学寻求新的学科生长点和应用支撑能力的关键。对于情报学而言,将数据科学作为一门工具性学科,引入大数据方法、技术应用于情报分析中,能够为情报学研究提供强有力的支撑,而数据链与情报链的整体融合,也可起到相辅相成、相得益彰的效果,成熟的情报学理论与方法也能够促进数据科学的发展[37]。   

  4 数据科学对情报学的影响   

  2016年6月19日,中国科学院文献情报中心主办的“数据驱动知识发现:情报学与数据科学的交互与融汇”国际学术研讨会上,国内外相关专家聚集于“大数据与关联数据下的知识发现与情报研究”的前沿问题、技术和方法,探讨数据科学与情报学的发展前景,围绕基于各类大数据和关联数据进行数据挖掘和知识计算的新方法与新工具、情报分析和决策研判的新方法与新工具、知识分析与计算驱动的理论前沿与最佳实践等主题展开广泛讨论。在当前大数据和关联数据语境下,情报学、数据科学、计算机科学进一步得到汇聚,形成新的知识发现、趋势鉴别、情报研究以及决策分析的方法、工具和服务,极大促进了情报学的变革与创新。情报学也需要积极响应大数据环境提出的新功能要求,在理论、方法与范式构建上做出相关的调整与聚焦。而由于数据科学的基础问题体系本身也就是大数据问题,旨在探讨大数据的核心科学与技术问题,下面也主要从理论逻辑、技术方法以及实践应用三个角度阐述在大数据语境下情报学科需要做出的调适与变革。  

  4.1 大数据语境下的情报学基础理论重构   

  大凡一门所谓的“学”,必须有贯穿其全领域的、自成体系的、严密的基本理论,这些理论不仅能指导该领域的社会实践,说明和解释实践过程中的存在各种现象和问题,而且还能引领学科的不断发展。然而,我国情报学研究和情报工作一直将重心放在针对大量的文献性基础服务工作上,过分偏重对文献处理和对信息技术的钻研,而对情报学基础理论、情报学科特性与本质的研究兴趣极大锐减。从每年申报的国家自然科学基金与社会科学基金项目规划指南中,可以清楚地看出真正深入情报研究的课题非常少,即使处于同一级学科的图书馆学、档案学科,其研究图书(馆)、档案(馆)的课题都远远超过情报,而情报的课题更多是被信息学所取代[5们。诸多因素致使情报学科一直未建立起完善的理论体系。因此,需要借助大数据这一“跳板”,重新审视情报学自身发展的学科定位,构建起完善的基础理论。   

  一个学科的理论体系可能是外显的,也可能是内隐的,也可能是移植而来,也可能是创新形成。臧兰[51]认为情报学理论体系应该包括三个方面:一是情报学原理体系,即对情报学各分支学科具有普遍指导意义的情报学基础理论体系;二是情报学学科体系,即情报学原理体系和各分支学科一起构成的、系统的情报学理论体系;三是学体体系,即以情报学为核心学科,以情报为主题范围,与其他相关学科共同构成的统一的框架结构,形成描述“社会情报活动”大系统的趋全性、综合性、多学科知识体系。针对情报学的基本原理体系,马费成先生指出情报的离散分布原理、相关性原理、有序性原理以及情报交流获取的最小努力原理、小世界原理和对数透视原理六大原理集中表征了情报科学理论和情报实践中的基本规律[46]。然而,这些基本原理都是以信息为研究对象,并建立在小样本及文本形式的环境下,在大数据范式下这些原理是否仍成立或存在普适性需要进一步探索。大数据环境下信息资源的内容、类型、形态以及描述识别都发生巨大变化,信息资源的增长规律以及信息扩散特征也都发生改变。同时,资源的复杂性也要求采用更加包容性的方法与技术来识别各类数据之间的关联性。且当将数据纳入情报学的研究对象中时,这些基本原理就必然存在一定的局限性,情报学需要在新的环境下创新与发展这些基本原理。然而,这些原理却是情报学发展这么多年积累起来的学科核心体系,是情报学屹立于学科之林的根本,是任何情况下都应该坚守的核心内容。因此,情报学现在的问题不是要彻底重建原理体系,而是要推陈出新,以适应大数据环境的变化以及社会发展的需要,使之更加完善和成熟,从而为社会信息环境治理继续提供独特的功能输出。   

  情报学学科体系由情报学各分支学科以各种方式联成的情报学理论整体体系,这些分支学科包括科学技术情报学、军事情报学、情报社会学、安全情报学等。每个分支学科主要是通过某一学科理论、方法或手段应用情报学和将情报学原理和规律运用于其他学科或具体领域形成的[51]。在当前环境下情报学需要从国家经济、社会发展与人民安全的需要出发,将科学情报、社科情报、军事情报、安全情报等联为一体,形成大情报科学,促进各情报领域的相互融合与相互支持,实现军民情报学的融合[47]。这就需要研究它们之间的关系,以及每个分支在情报学科整体中的地位和作用,构建一个统一的具有指导意义的情报学理论体系框架。然而,由于不同分支学科的服务对象、特定任务、研究方法、数据类型等都存在共性和差异性,需要对每一个分支学科进行抽象和概括,获取具有足够复用性和普适性的理论、方法与技术,形成对各分支有指导意义的综合性学科,使各分支学科在横断面上互相联系。对分支学科的整合,可以使情报学的研究体系扩展深化为复杂的结构,形成一个不断在情报学发展的多维坐标系中填补空白的学科体系,推动不同分支学科乃至整合情报学从一个阶段向另一个更高级阶段发展运动。   

  情报学学体体系是从全社会出发,以情报现象为范域,将其他相关学科的理论、技术与方法纳入情报研究中,形成一个开放的、趋全的情报知识综合体系,构建一个统一的情报世界图景。科学学体思想根源于科学的整体化发展,以及跨学科交叉研究的大趋势。对大数据环境下的情报学学体体系建设,需要重新认识情报理论技术和方法建设的重要性,在坚守情报学原理体系的基础上,注入数据科学、计算机科学、社会学等学科的理论技术方法,驱动和创新情报学理论技术与方法。这种引入并非是一味追求理论体系的“全”与“新”,也并非直接将其他研究领域视为情报学研究的主战场,而是通过移植、借用其他学科的理论,加以适当的改造,以求适应情报学的研究特点以及解释情报学研究的具体问题或现象,继而通过创新以丰富、扩展情报学科的理论体系。同时,也需要增强学科的独立性,将本学科中成熟的理论思想传播到其他学科中,做到坚守情报主战场,弘扬情报理论,推动整个情报学理论研究向纵深发展。

  4.2 大数据语境下情报研究的技术与方法   

  在情报学的发展过程中,始终受到两个问题的困扰:一是情报学中并没有形成带有浓厚学科性质的方法和工具,有关情报处理分析的软件如定量分析软件、可视化软件、计算工具软件的研制更多是来自于计算机、统计学、数学等领域,而真正由情报学领域的学者自行开发的软件相对较少;二是即使使用其他学科的方法或工具时也可能存在着生搬硬套现象,只注重形式化,没有针对情报学特征实施改造,难以在情报分析过程中发挥应有作用。因此,情报学领域必须结合当前的时代使命、任务要求和发展需要,对已有的技术与方法做出调整与创新,同时,也需要积极主动开发更多带有自身学科特色情报分析类工具,把新的信息技术充分运用到情报分析技术、方法与工具研发的过程中,把情报的思想融入分析工具的设计中[50]。其中,特别要注重将大数据理念以及数据科学这一新型科学的技术与方法应用到情报分析软件工具中。  

5.2 关注国家战略实施的重大领域     

    情报学研究一直未获得较大决策话语权的另一个主要原因是情报学发展较长时间都是以文献情报作为研究对象,将大量文献性的基础服务作为情报工作的主要任务,致使情报学研究在国家经济、社会发展与人民安全的需求上一直未发挥其应当承担的职责与作用。尽管情报学界的一些著名学者如苏新宁、包昌火、马德辉等较早就呼吁要突破情报学研究“自娱自乐”视域的局限性,倡导要树立总体国家情报观,构建国家情报学说、打造国家情报模式和制定国家情报战略,但仍然存在较多学者在观念上缺乏大情报观的思维。情报学领域专家需要重新定位情报学科的发展目标和认识情报工作的性质与作用,从单纯服务于科技发展转向社会、技术与科技融合范式框架之下的重要命题,置身于自然、社会与人的复杂巨系统中。     

    情报学需要关注国家战略实施的重大领域,尤其是当前国家密切关注的国家安全、企业竞争、舆情传播以及应急事件等问题都至关重要。自习近平总书记提出“国家安全观”的重大战略思想,将国家安全视为新形势下改革与发展的战略性问题,建立统一、高效的国家情报体系变得尤为重要。由武汉大学信息资源研究中心李纲教授在2017年8月与清华大学、东北大学、中南大学等共同申报并获批国家自然科学基金重大项目“国家安全管理的决策体系基础科学问题探究”中,通过研究课题“国家安全大数据综合信息集成与分析方法”,致力综合运用数据科学、信息系统、情报科学的技术与方法,探究面向国家安全大数据的信息集成理论架构、战略信息需求分析、信息组织与融合、信息分析与系统应用等核心问题,实现对国家安全大数据的综合信息集成与分析。情报学领域专家一直专注的信息组织、信息集成与分析、竞争情报及知识网络等研究都应该成为国家安全管理的重要武器,为构建情报灵、判断准、反应快的国家安全管理主动防控体系提供有效的信息支撑,实现国家安全能力的综合提升。而竞争情报也是大数据时代企业核心竞争力的关键要素,借助情报学理论与方法对企业核心数据和信息的集成、关联挖掘、数据分析与可视化也是提升企业核心竞争力的重要途径。另外,对社会舆情传播和应急事件管理的研究,也是情报学、计算机科学等共同关注的前沿性议题。     

    5.3 促进军民情报研究融合     

党的十九大报告中提出“坚持富国和强军相统一、强化统一领导、顶层设计,改革创新和重大项目落实,形成军民融合深度发展格局,构建一体化的国家战略体系和能力。”军民融合是将战争形态信息化、技术形态通用化、经济形态市场化的产物,是构建一体化的国家战略体系和能力的重要举措,也为实现军(军事情报、安全情报等)、民(科技情报、社科情报等)情报学的融合提供了理论指引和发展契机。军民情报研究融合是对情报学学科地位重新认识的问题。情报学作为一门科学,在之前发展过程中受到社会的广泛关注,并吸引了众多相关学科专家从不同角度参与情报的研究实践,这种与多种学科相互渗透、有机结合的综合性科学研究,导致了情报学各个分支学科的陆续产生。各个分支学科的产生对情报学理论体系形成、发展、运动起着重要的作用。   

  然而,目前国家安全形势和信息环境复杂性,决定情报存在的“非线性”和复杂性,情报活动不再是传统的“收集—组织—传递—利用”的线性过程,需要综合集成科技情报、社科情报、军事情报、安全情报等各类军民情报资源,以发现信息之间的内在关联,实现情报的“涌现”过程[58]。因此,当前“分散”的情报学并不能适应大数据与国家发展和安全的需求,需要促进军民情报研究的融合,形成大情报科学。而军民情报的融合并非简单线性、组装式的融合过程,而是需要从学科建设的战略全局角度研究军民情报融合的发展模式和基本框架,重新认识军民情报融合深度发展的目标任务和根本要求,阐明推进军民情报融合发展中的根本性、全局性的重大问题,通过把握每个分支学科在情报学科中的地位和作用,分析不同分支学科的服务对象、特定任务、研究方法、数据类型等都存在共性和差异性,对每一个分支学科进行抽象和概括,获取具有足够复用性和普适性的理论、方法与技术,从而形成对各分支有指导意义的综合性学科。     

    5.4 关注学科跨界交叉

  打破学科界面,推动学科交叉是促进学科发展和获取高水平创新成果的重要途径。从全球范围的学术、科技创新与学科关系来看,原创成果大都是学科前沿和学科群跨界交叉融合的结果,仅在传统学科方向或者单一学科内进行研究,无法产生真正意义上的学术和技术原创成果。而情报学本身作为一门交叉性非常强的学科,即是学科交叉的移植供体,也是嫁接受体,通过学科之间知识的交叉关联、复用与创新在情报学发展演进过程中起到了关键性作用,同时,情报学作为研究工具、方法和系统被以移植嫁接和互补共融的方法引入到其他学科中,也产生新的交叉主题,促进了其他学科的发展。然而,情报学当前更多局限于与本领域及关系密切的经济管理领域、社会科学学科产生知识的交叉、渗透、融合与创新[59]。情报学科需要在坚守历史的经验积累和学科阵地的基础上,按照突出优势、扩展领域、补齐短板和完善体系的要求,以更加开放的姿态、宽广的视角深入研究情报学的理论研究和情报工程,深入推进各门类学科与情报学之间的大跨度、多方式的广泛交叉,从而能够建设多元开放、互动协同发展的学科生态群,以避免情报学被边缘化、空泛化、标签化及“失语”“失踪”“失声”现象的发生,真正能够做强、做大情报学科。就像英国著名情报学家布鲁克斯生前曾预言的那样:“情报学将会成为社会科学的基础,就像物理学是自然科学的基础学科一样。”也希望未来的情报学能够发展像数学、统计学和计算机科学一样,成为各门学科普适化的工具。