社科网首页|论坛|人文社区|客户端|官方微博|报刊投稿|邮箱 中国社会科学网
您现在的位置:中国社会科学院科研局/学部工作局 >> 学术动态 >> 学术前沿 >> 正文
社科文献计量学的发展
文章作者:纪亮 作者单位:王子豪 

    文献计量学产生于20世纪初,20年代到40年代形成了构成其主要理论框架的几个经典定律。1969年出现“文献计量学”这个名词,成为情报学的重要组成部分。现在文献计量学已成为图书情报领域内最活跃的一个分支学科,体现了当代学科定量化的趋势。目前,社科领域的文献计量学研究主要是根据社会科学的特点,在文献计量学的主要理论框架下,应用和发展各种通用的定律和方法。社科文献计量学的发展是在文献计量学经典理论的主导下展开的。
    一、文献计量学的发展及主要理论成果
    (一)文献计量学的概念
    关于文献计量学的名称、术语、概念和内容的讨论由来以久,各国专家学者提出了很多不同的看法和见解。1969年,英国目录学家阿伦•普理查德(A•Pritchard)第一次使用文献计量学 (Bibliometrics)这一术语,提出了它的定义:“文献计量学是把数学和统计学应用于图书和其他交流媒介的一门学科。”这一定义具有一定的普遍性和代表性,被情报理论界接受和认可。近几年,不少学者仍在不懈地对文献计量学的定义进行深入讨论和研究。例如,许多学者从探讨物理单元和评价交流媒介的测度原理的角度,把文献计量学作为整个情报学方法论工具和理论体系的基础。
    (二)文献计量学的理论成果
    1.文献作者分布定律的产生和发展。美国洛特卡(A•J•Lotka)在20世纪20年代提出描述科学生产率的经验定律,用以揭示作者与著作量之间的数量关系,又称“倒数平方定律”。它描述的是科学工作者人数与其所著论文之间的关系:生产两篇文章的作者大约是生产一篇文章作者数的1/4,生产三篇文章的作者大约是生产一篇文章作者数的1/9,生产n篇文章的作者大约是生产一篇文章作者数的1/n2,且生产一篇文章的作者数占全部作者数的60%。洛特卡定律发表后,直到1941年戴维斯(Davis)才第一次检验它。他利用1941年现有的数据,发现论文作者分布接近Pareto 分布。此后,齐夫(1949)、立芬斯(1953)、西蒙(1955)、费桑尔赖(1969)、肖尔(1975)等都对洛特卡定律进行了检验。但是结果的相符度不稳定。人们对该定律的正确性产生了怀疑,修正工作也随之而来。在对文献作者分布规律的修正中,普赖斯(Price)和维拉奇(Vlachy)是成就最为卓著的两位。普赖斯指出科学家总人数的开平方所得到的数,是撰写了全部科学论文的50 %的人数;维拉奇也在改进洛特卡定律的研究中发挥了重要的作用。他从1972年开始研究洛特卡定律,发现研究者本人所处的时代和作者群所涉及的人是影响洛特卡分布的两个重要因素。
    目前对洛特卡定律的研究主要集中在两个方面:一是对洛特卡一般公式的推导,验证公式的应用范围和估计参数;二是对洛特卡定律的机理及适用性的研究。
    2.文献分散规律的产生和发展。1934年,英国著名文献学家布拉德福(S•C•Bradford)首次提出文献分散定律的基本思想。布拉德福考察了论文在科技期刊中的登载情况,发现一个明显的趋势:论文在期刊中的分布是不均匀的,少数期刊中聚集着大量的专业论文,少量的专业论文散落在大量的期刊中。他采用区域划分和图像描述来阐述其所得的结论,形成文献分散定律也叫布拉德福定律。但是布拉德福定律存在一个问题,即他对自己公式的代数解释是错误的,文字表示法和图形表示得到的比例不一致,布拉德福误认为他的图形表示是仅为对其文字表述的进一步说明。
    在区域划分方面,1967年,莱姆库勒(Leimkuhler)以维克利区域划分任意性与布拉德福系数的关系为基础,推导了布拉德福分布的公式。1969年,高夫曼(Goffman)等人确定了最大划分和最小核心的方法。同年,英国著名情报学家布鲁克斯(Brookes)首次根据布拉德福曲线给出了相应的数学表达式,将布拉德福曲线作为分段函数来描述,并给出了下弯部分的数学模拟公式。
    布拉德福定律文字描述同图像描述的不一致,布拉德福统计数据以及Pope数据同布拉德福定律的明显差异,Groos下垂现象、分区问题、模型的统一等,是我们今后的研究方向。
    3.词频分布规律的产生和发展。美国学者齐夫(G•K•Zipf)1935年指出在任何一篇文章中,词的出现频率都服从如下规律:如果把一篇较长文章中每个词出现的频次统计出来,按照高频词在前、低频词在后的递减顺序排列,并用自然数给这些词编上等级序号,即频次最高的词等级为1,频次次之的等级为2,……,频次最小的词等级为D。若用f表示频次,r表示等级序号,则有fr=C(C为常数)。人们称该式为齐夫定律。
    由于词频分布问题比较复杂,齐夫定律的适用范围具有一定的局限性,尤其是对出现频次特别高的词和特别低的词不能充分反映其分布规律。1936年,美国语言学家朱斯(Joos)对齐夫定律做了修正。1952年,美籍法国数学家蒙代尔布罗(Mandelbrot)对词频——等级的分布规律进行多次研究,得到了著名的蒙代尔布罗修正式,它是比齐夫公式、朱斯修正式更一般的词频——等级表达式。
    科学文献一般依赖语言而存在,并以语言为信息载体进行交流。而社科文献内容与语言的密切联系的特性为词汇分布规律研究带来复杂性。在科技文献中,表达某一内容的语言相对精确和通用,易于量化。由于社科文献在表达某一内容时常有很强的意识形态色彩、地域色彩、个人色彩以及表现这些色彩的形形色色的语言风格,加之采用夸张、比喻、形容等多种修辞手法,使得用科技方法处理和归纳的社科术语关键词索引成功率较低,给词汇分布规律的量化研究造成一定的困难。社科词频分布规律的研究还有赖于对社科文献语言进行深人地分析研究。
    4.文献老化规律的产生和发展。1943年,戈斯纳尔(Gosnell)在其博士论文中最早研究文献的老化问题,以求衡量科学文献的老化速度和程度,定量揭示老化规律。文献学家贝尔纳(J•D•Bernal)、巴尔顿(R•E•Burton)和凯普勒(R•W•Kebler),先后提出了文献的半衰期概念。1958年,贝尔纳描述科技文献使用情况时,借用了放射化学中放射性衰变的术语“半衰期”,生动地说明了文献老化问题。所谓文献半衰期指这样一段时间,在此时间内已发表的某一学科或领域正在被利用的全部文献的较新的一半,或目前所利用的文献的较新的一半是在多长时间内发表的。1971年普赖斯提出一个衡量各个知识领域文献老化的新尺度,把对年限不超过5年的被引文献数量同被引文献总量之比作为标准。这一方法既可用于某一领域的全部文献,也可用于评价某种期刊、某一机构甚至某一作者和某篇文章。其计算公式如下:
 (普赖斯指数)=被引文献数量(小于或等于5年)×100%/被引文献总量
    1979年,阿拉莫斯库(Avramescu)利用物理学中的传播理论,提出了自己的情报散播模型。如果选取其不同的参数值便可得到几种不同类型的曲线,这些曲线可以反映不同质量的文献的老化过程,并揭示文献使用和老化过程的复杂多样性。
    5.文献增长规律的产生和发展。文献的增长规律最早是由美国韦斯莱大学(Wesleyan
University) 图书馆学家赖德(Ryder)经调查统计后发现的,他在1944年提出全美国主要大学图书馆的藏书量每16年增加一倍,这实际也是藏书量指数增长规律的一种表述。
    在20世纪60年代普赖斯和弗拉杜茨、纳里莫夫等人提出了用logistic曲线来描述文献增长过程的观点,它的合理性不仅包含了指数型增长曲线,还克服了指数型曲线无限增长的缺点。用指数模型和logistic模型描述文献增长都是在一定的条件下近似成立的。例如,美国科学史和情报学专家雷舍(Resher)提出的文献等级增长模型,高夫曼(Goffman)的传染病模型。
     (三)文献计量学的理论模型体系
    文献计量学的三大经典定律布拉德福定律、洛特卡定律和齐夫定律从表面看,它们的统计对象各异,其结论也不尽相同,但是它们的研究方法存在着某些相似之处,事实上它们属于同一个分布体系。该体系被称为布-齐-洛体系。如果把期刊、字词、书籍、文章等称为信息发生源,将作品、论文、字词的出现、书籍的使用、文章的被引等称为产物,那么文献计量学的众多分布规律皆可认为是发生源数量与产物数量之间存在的函数关系。这种函数关系通常用两种方法来体现:一是频次——规模分布,再就是频次——等级分布。其中洛特卡定律、普赖斯的数学模型属于频次——规模分布;齐夫定律、布拉德福定律的莱姆库勒公式、蒙代尔布罗表达式都属于频次——等级分布。寻求布拉德福、齐夫和洛特卡分布的普遍适用模型,来模拟社会现象中集中与分散的分布现象是文献计量学家们共同的愿望。
    二、文献计量学在我国社科领域中的应用与发展
    (一)成果数量和统计工具有了较快的增长和发展
    1979-2000年的22年间,我国大陆共发表文献计量学论著2534篇/部(含著作),每年平均文献量达到115.2篇/部。发表这些成果的期刊达到225种,图书28种,涉及的作者达1783人(含合作者)。而同期社科方面的文献计量学论文约70篇,占比重很小。但2000-2004年的4年间,这一数量达到近200篇,表明我国社科方面的文献计量学论文产出速度加快。近年来,我国翻译出版了匈牙利著名科学计量学家布劳温(T•Braun)等人著的《科学计量学指标》,比利时专家埃格赫(L•Egghe)和鲁索(R•Rorsseall)著的《情报计量学引论》,印度著名情报学家拉维查德拉•劳(Ravichadra Lao)著的《图书情报定量方法》。国内学者撰写的著作有邱均平著的《文献计量学》(1988年)、王崇德著的《文献计量学教程》(1990年)、丁学东著的《文献计量学基础》(1993年)、罗式胜主编的《文献计量学概论》(1994年)。这些专著成为指导社科文献计量学研究的重要工具书。此外,娄策群著的《社会科学评价的文献计量理论与方法》(1999年)一书,在科研评价方面,综合运用了科学学、情报学、文献计量学、系统科学、统计学等学科的理论成果,在探讨社科评价的理论和方法上,为建立适用于社科评价对象的文献计量指标体系、定量模型和方法做了有益的尝试。
    社科文献计量学强调定量性和实用性,无论是理论研究还是实际应用都必须要有一定规模的数据支持。由于语言障碍等诸多原因,美国的《科会科学引文索引》(SSCI)不包括我国大多数社科优秀期刊,无法对我国的社科文献发展进行统计。从20世纪90年代中期开始,我国图书情报界在引进和自行开发引文数据库、开展计算机辅助文献计量分析的研究等方面进行了大胆探索,取得了很大的进展。目前我国自行开发的科技类引文数据库主要有中国科学院文献情报中心的《中国科学引文数据库》(来源期刊1047种)、中国科技信息研究所的《中国科技论文与引文数据库》(来源期刊1214种);紧随其后的社科类的引文数据库主要有中国社会科学院文献信息中心的《中国社科引文数据库》(来源期刊702种)和南京大学的《中文社会科学引文索引》(来源期刊461种)。这些引文数据库是我国进行文献计量分析的主要情报源,在文献计量研究、期刊评估、课题查新、成果申报、项目评估、人才选拔、科研院所和高等学校的绩效评价等方面提供了科学、客观的统计工具。
    (二)引文分析成为重要的应用研究领域
    格罗斯(P•L•K•Gross)和格罗斯(E•M•Gross) 于1927年对化学教育杂志的引文进行分析,根据该学科期刊的被引次数多少列出了化学教育核心期刊表。这是文献学史上第一次引文分析,为引文分析奠定了基础。对引文分析做出杰出贡献的是美国著名情报学家加菲尔德,1955年他系统地提出了以引文索引来检索科技文献的方案。1963年,首次发行了《科学引文索引》(SCI)单行本。1973年,推出《社会科学引文索引》(SSCI),1978年,推出《艺术和人文科学引文索引》(A&HCI)。它们的出现使科技和社科的引文分析达到可以实用的阶段,为文献计量学研究提供了一种多功能的有力工具,一定程度上解决了引文分析所必需的大量数据,有效地推动了文献计量学的全面发展,被誉为文献计量学史上具有划时代意义的研究成果。
    社科引文分析作为文献计量学的一个重要领域得到我国众多学者的重视并产生一批理论研究成果。而促进它的实际应用是我国社科引文数据库的建立。引文数据库是一种以引证关系为骥索途径的新颖实用的文献检索工具。这种引证关系来源于人们的著述活动。作者在撰写或编辑论著时,常以尾注、脚注、文中注和参考文献的形式标明所引用的概念、理论、方法、文献资料等等的来源出处,为自己的论述提供佐证和依据,形成被引文献记录即引文(Citation)。追寻这种引证联系,可以找到一系列内容相关的文献,从中可以找出某些学术观点的演化发展脉络,某一领域的研究动态、走向和规律,某一学科的核心作者群,学术研究中的启承转合关系,以及某一名词、概念、方法出现的时间、频次和衰减情况。引文数据库可以提供以引证关系为特征的特殊的文献检索方法,客观准确地揭示文献之间跨时空、跨学科、多领域的网状联系。在科研评价中,引文数据库可以从文献的“数量”(科研产出率)和“质量”(成果影响力)方面提供有关学科分布、作者、机构、期刊和地区的多项统计数据和指标。
    社科引文也是由测度指标来衡量的,可以根据不同的需要来规定引文测度体系的各种指标。目前常用的社科引文分析测度指标有:引文率、期刊载文量、期刊被引量、期刊引用量、影响因子、学科影响因子、当年指标、引证系数和被引证系数、自引证系数和自被引证系数。社科引文分析的方法主要有统计方法、比较方法、图解方法和数学模型法。这些方法和指标具有社会科学的明显特征。
    社科文献的意识形态性、社会性、学科融合性以及时代性,使得文献相互引用规律的内容更为丰富和复杂。一般说来,在科技文献中,科学论著的学术水平与其被引量的多少是成正比的。而在社会科学中,由于存在正引、负引(批判性引用),以及误引、伪引、漏引等,社会科学论著的学术水平与其被引量的多少并非只是简单的正比关系。目前的社科引文分析中,还没有建立准确的计量概念来反映这种特点。引文耦合与同被引是从不同的角度反映文献之间联系程度的计量概念。它们在科技文献和社科文献领域中都是适用的。只是在社科引文的统计结果上,社会科学领域的强烈交叉渗透性和复杂多变性会明显地表现出来。目前这方面的研究成果还不多,原因之一是引文统计分析所需的大量数据支持和积累还达不到要求。与自然科学相比,社会科学的特性决定了其学科之间、论著之间、学者之间具有更为广泛而深入的联系,因而社科文献计量学在引文耦合和同被引方面,具有比科技文献计量学更为丰富的研究内容。
    中国社会科学院文献信息中心在我国较早地开展了相关的研究。1999的5月开始主持开发“中国社科引文数据库”,现在已成为规模较大的引文统计基础;作为其应用成果,在引文分析的基础上研制和出版了《中国社科核心期刊要览》(2004年版)。北京大学图书馆出版的《中文核心期刊要目总览》,包括了科技和社科核心期刊的评价,引文分析是其统计分析的核心部分。南京大学研制和出版了“中文社会科学引文索引”以及《中国社会科学研究计量指标——论文、引文与期刊引用统计》,为引文分析提供了多种选择。
    社会科学的引文分析作为文献计量学的一个重要分支,主要沿三个方向发展:第一,从引文入手,用于评价期刊和论文;第二,从引文之间立体网络关系着眼,研究将这种关系用于揭示社会科学的发展、历程和前景;第三,进行引文分析反映主题相似性的研究,主要用以描述科学结构和进行文献索引。
     (三)社科文献计量学的理论应用
    目前,社科文献计量学的主要成就体现在对基础理论的实际推广应用方面。
    1.洛特卡定律的应用:(1)在情报学图书馆学方面,一般是用它来预测发表不同数目文章的著者数量和特定学科的文献数量。(2)在预测科学方面,从社会科学著者数量来预测文献数量的增长速度和文献流的动向;预测学者数量的增长和科学发展的规模及趋势。(3)在科学学和人才学方面,研究科学家的活动规律,研究人才的著述特征。
    2.布拉德福定律的应用:为文献情报部门使用有限的资金、获取情报密度最高的情报源提供定量依据。它的作用在帮助确定核心期刊、文献检索、考察专著的分布、动态馆藏的维护、检索工具完整性的测定、学科幅度的比较、指导读者利用期刊、指导期刊订购工作等方面。
    3.齐夫定律的应用:(1)文献标引和词表编制。(2)情报检索,通过齐夫定律求出数据库所需的存储量。(3)图书情报管理,帮助合理选择图书馆或情报中心的最佳地理位置,以及设计图书馆的排架,以使得在存取文献时所走的路程最短。
    4.文献老化规律的应用:(1)在文献管理中优化馆藏,评价科学文献的特性和时效。(2)用老化规律说明学科发展的速度,揭示科学发展的规律。文献老化的主要因素是文献积累程度的高低,而文献积累程度是与学科发展速度成正比的。与自然科学、技术科学相比,社会科学的发展是缓慢的,因而它的老化速度也明显低于科技文献。
    5.文献增长规律的应用:(1)通过文献数量的增长变化规律来判断和预测社会科学知识的增长状况。(2)在情报研究中,用社会科学文献数量的增长指标从成果产出量角度反映学科发展的过程和成果所达到的水平。(3)在图书情报管理中,用其确定经费的合理分配、资料搜集的原则、馆藏增加的策略、存储空间扩大的措施等等。
    三、21世纪社科文献计量学的发展展望
    文献计量学的重要特征是其定量化形式。它一直伴随着统计学、数学等学科的发展而发展的。当统计学、数学有进一步发展时,文献计量学也要修正它的理论。目前在文献的增长、老化问题等方面,一直有若干种理论模型同时存在,没有得到统一。经典定律在经过萌芽、产生、发展、成熟和运用后,必然拓展新的发展空间。目前关于文献计量学的研究几乎是对经典定律的应用或验证。随着信息资源的电子化、数字化和网络化的发展,新的信息来源为文献计量向信息计量的发展提供了基础。大量电子期刊的出版,无形中扩大了原来的“文献”范畴,使网上的期刊内容也可以进行定量分析。为适应这些需要,网络计量学利用数学、统计学等各种方法,对网络上各种信息的组织、存储、分布、传递和开发利用等进行定量描述和分析,揭示其数量关系和内在的规律。文献计量学必须关注新的生长点,如网络信息计量学。因此,有些学者提出对任何形式的信息进行定量研究的“信息计量学”的概念,认为文献计量学与信息计量学也是密不可分、相辅相成的,正如文献与情报、文献学与情报学的关系一样,文献计量学是信息计量学的基础,而信息计量学拓展了文献计量学的应用范围。在新世纪,文献计量学将会加速向新的研究领域拓展。社科文献计量学的研究和应用也会取得较快和较新的发展。
    我国社科领域的文献计量学研究起步晚于科技领域,目前大多数还处于借鉴科技文献的计量方法进行小范围的应用研究。例如,利用文献计量学的一些基本理论和方法对某些学科和期刊进行统计分析。社科的文献计量学体系和方法还没有完全建立起来,但是根据现有的趋势分析,可以看出今后会有一个加速发展时期。社科文献计量学的研究内容非常丰富,不同文种、不同学科、不同时代及不同载体的社会科学文献都有各自的特殊性。要真正建立和完善这一学科体系,还要充分研究社科文献的特点:如理论的抽象性、社会性、不确定性和交叉渗透性、语言表现性、文献老化周期长和分布的分散性。只有从不同角度将社科文献的特点全面地揭示出来,才有可能建立起适合社科特色的社科文献计量学理论。
              
作者:  纪亮  中国社会科学院文献信息中心 

发表时间:2005-12-30 文章出处:本站原创 责任编辑: 【返回首页】 【关闭窗口】
   
中国社会科学院科研局/学部工作局 版权所有
地址:北京东城区建内大街5号 邮编:100732 Email:zhc-kyj@cass.org.cn