社科网首页|论坛|人文社区|客户端|官方微博|报刊投稿|邮箱 中国社会科学网
您现在的位置:中国社会科学院科研局/学部工作局 >> 理论视点 >> 文史哲研究 >> 正文
“元代文献数据库”:建设国内首部以断代文献为辑录对象的大型数据库,促进基础学科的良性发展
文章作者:课题组 供稿 作者单位: 

    “元代文献数据库”系中国社会科学院2006年度立项的重大课题,课题主持人为邓绍基、郑永晓,课题组主要成员有陈铁民、王筱芸、张剑、张颐青、刘玲华、张媛、焦云霞等。预计于2010年12月完成,成果形式为阶段性论文及调研报告若干、约3.2GB(约 6200万字)的数据库1个。
    一、 研究现状
    1、 国内研究状况
    元朝在历史上存在的时间比较短(仅百余年左右),又是一个少数民族政权。除元杂剧以外,过去一般认为元代文学不是很发达,因此除戏剧领域投入较多研究力量外,对元代诗歌、元代散文、元代笔记等方面的研究比较薄弱。进入新世纪以来,伴随学术界学术视野的扩大,元代诗歌、散文开始进入众多学者的视野,元杂剧研究也由于研究队伍的扩充和研究方法的更新而步入一个新的阶段。尤其是元代诗歌、散文方面的研究,在新世纪以来取得了较大的成果。据杨镰研究员主持的院重大课题《元诗与元诗文献研究》所得出的阶段性成果测算,元代诗歌共有13万余首,比唐诗多出近8万首。元诗的总体成就虽然远不及唐诗,一代诗歌成就的大小也不能仅按作品的数量测算。但是,得出任何结论都需要建立在坚实可靠而深入的研究基础之上。在对10余万首元诗进行深入研究之前,也还不宜对元诗在中国诗史上的地位进行草率定位。同理也适用于对元代散文等方面的研究。正是着眼于元代文学可开垦的学术空白点甚多,学术研究潜力巨大,国内部分高校正着手规划投入较大人力物力加大对元代文学进行研究的力度。
    就中国古代文学学科而言,魏晋南北朝文学、唐宋文学、明清小说等方面的研究由于研究历史很长、成果众多、各教育和科研单位投入巨大,已经很难再有大的突破。纵观整个中国古代文学史的发展脉络,唯有元代文学基本上属于一个有待深入开垦的领域。
    文学所古代室在元代文学、文献研究方面历来处于国内领先地位,郑振铎、吴晓铃、邓绍基、吕薇芬等学者都曾经在元代文学各分支学科中取得重要成就。目前,以杨镰、么书仪研究员为代表的古代室在职学者同样在元代文学研究领域占据着极其重要的地位。为了进一步巩固文学所在元代文学研究领域的地位,有必要扩大研究成果,制作一个包容全部元代文学文献的数据库,首先保证在基础建设和学术资料积累方面走在国内学术界的前面,占据这一学术研究领域的制高点,从而为进一步强化文学所在这一研究领域的领先地位奠定坚实的基础。
    更新研究手段,建设适应现代学术研究需要、检索便捷的数据库对学术研究的意义无需多言。而对于像古代文学各分支学科、尤其是元代文学这种过去学者较少开拓的领域,尤其需要在资料整理方面先行一步。文学所过去整理的《古本戏曲丛刊》、《古本小说丛刊》以及正在进行的院重大课题《元诗与元诗文献研究》已经为这一项目奠定了较好的基础。迫切需要再接再厉,建设一个适应时代要求的、对科研工作有巨大帮助的高水准数据库。
    上个世纪文学所在古籍文献数字化方面曾经是先行者,取得过重要成就。现在则已经落后于部分高校,我们愿以此为契机,经过5年左右的努力与拼搏,将文献数字化与学术数据库建设工作提高到国内领先水平。
    2、 国外研究状况
    总体而言,不论是在中国大陆,还是在香港、台湾地区或其他海外地区,相关学术机构和商业性公司主要对唐宋(包括唐宋)以前的文献做了数字化处理。其原因主要有两点:①唐宋以前尤其是在宋代活字印刷术发明以前,遗留文献总量相对较少,比较易于进行数字化。②唐以前的文献前人已经编纂、出版有各类纸质文本,有多种收集一代或数代文献的总集存在,如严可均《全上古三代秦汉魏晋六朝文》、逯钦立《先秦汉魏晋南北朝诗》、清人纂辑《全唐诗》、《全唐文》等。宋代文献,则有今人唐圭璋《全宋词》、北京大学《全宋诗》、四川大学《全宋文》等。在已有比较可靠的纸质文本的基础上制作以电子文本为载体的数据库自然相对容易。某些商业公司从事《四库全书》、《四部丛刊》等古籍的数字化工作,原因也在于此。已经面世的这些电子化古籍虽然对学术研究提供了很大帮助,但是数字化古籍文献对中国历史、古典文学研究的潜能远未能得到充分发挥。原因在于已经开发的这些古籍的数字化版本多数属于已有文献的电子检索版本,优点在于使用方便,功能强大;而其缺陷也很明显:即这些古文献的电子版本身一般而言并没有增加文献数量和信息总量,并没有真正网罗一代或数代文献,为学者提供一个无需再查询图书馆的数字化平台。比如,现在已有《全唐诗》电子版,《全唐文》也有单位在从事数字化工作。但是,根据一般总集编纂惯例,《全唐文》这样的著作并没有收录除单篇文章以外的唐人笔记、史书等,对研究唐代文学而言也仍然美中不足。要制作包容一代文献的数据库,至少需要具备两个条件:第一,在学术层面上有足够的实力和知识能够保证搜集、鉴定、筛选文献的精确和无误,亦即如果从事元代文献数据库的开发,不能多收非元代文献,更不能遗漏任何有价值的元代文献。第二,要有足够的从事古籍数字化工作的经验。古籍数字化不同一般文本的电子化工作,存在大量的异体字、冷僻字和Unicode代码集的处理问题,一旦处理不好,将严重影响课题的正常进行和最终成果的质量。
    正是由于在上述两方面难以兼顾,截至目前为止,国内外在元代文献的数字化开发方面仍属空白。台湾地区的相关网站上,提供了一些零星的有关元代戏剧的文献,虽聊胜于无,终究对研究整个元代文学意义不大。
    一、 研究重点
    1、本课题为数据库,主要收录与元代文学、历史有关的文献。第一项主要内容为元代诗歌和元代词曲。元诗研究一向不受重视,据杨镰研究员主持的《元诗与元诗文献研究》所获阶段性成果,现存元诗13万余首,不仅包括大量汉人的优秀作品,也有过去不为人所关注甚至根本不了解的少数民族诗人、域外旅居中原诗人等遗留的大量优秀作品。其数量远超五万首左右的《全唐诗》。如不制作成检索便捷、功能强大的数据库,对这13万余首元诗进行深入细致的研究,几乎是不现实的。元诗以外,元人所作词曲亦颇丰富,比较著名的词曲别集即有60余种。
    2、本数据库重点收录的第二项主要内容为元代戏剧。元杂剧是我国戏剧发展史上的高峰时期,作家辈出,作品众多。在中国文学史、文化史乃至世界文化史上具有极其重要的地位。由于这些戏剧剧本或者首先由民间戏班演出,而后经由文人加工,或者属于以文人创作本为底本,各戏班根据演出情况不断加工改造。从而造成戏剧版本众多,差距甚大。过去学者进行校勘时在异文的校对方面十分棘手。本课题因无容量限制,将尽可能收录相关戏剧的所有版本,真正实现元代戏剧文献的集成化。有记载可查之元杂剧七百三十余种,现存完整者二百余种,残本二十九种。不论是否完整,本数据库将一律收录。另外,现存元代南戏,包括宋元之交的一些作品,如《宦门弟子错立身》、《拜月亭》、《琵琶记》等,约30种,也将全文收录。
    3、本数据库收录的第三方面的内容属于元代文学理论著述、诗话、词话、笔记、话本、历史著作、能够显示元人文学思想的文学选本等。可以说,除经部著作不予收录外,举凡元人撰著的各类著述基本都在收录之列。本数据库将尽可能把对研究元代文学与元代历史有关的文献完全包括进来。如元人笔记《南村辍耕录》、《研北杂志》、《雪履斋日记》、《庶斋老学丛谈》、《隐居通议》等均在采择之列,总计约104种。元代诗文理论著述《山房随笔》、《木天禁语》、《诗法正宗》、《诗法家数》、《诗学禁脔》、《黄氏诗法》等,总计约30余种。另有宋元话本约10种,也将全文收录。
    此外,有关元代考古方面的成果也将纳入该数据库中。
    二、课题所欲突破的难点
    (1)本课题属于国内第一部以断代文献为辑录对象的大型数据库。唐以前的文献,因数量较少,国内外已有各种版本的电子版文献,检索比较方便,无需按断代划分制作数据库。唐代文献中《全唐诗》已有数据库,《全唐文》则有兄弟单位正在制作,但也并非收录所有唐代文献的断代数据库。一些商业公司制作的《四部丛刊》、《四库全书》电子版等对各代文献都有所收录,但远非全面,不属于断代文献性质的数据库。这个课题的开发对象包括整个元代文献,将对所有从事元代文学、元代历史和汉语史等学科研究的学者提供巨大帮助。
    (2)本课题将根据元代作家和历史文献的性质,对所收文献进行具有高度学术性的整理、排列、校勘工作,并对所收文献撰写相应的说明文字,以保证所收文献的来历、版本、真伪等情况得到详尽、真实的反映。比如,元人笔记过去多数没有整理,本数据库将选用善本并聘请权威专家标点、校勘,为以后出版“元人笔记丛刊”奠定基础。换言之,本课题并非将历史文献进行简单的电子化,而是包含着大量有关元代文学和历史的最新研究成果。不仅使学者可以方便检索其中丰富的内容,并且这些内容经过了学有专长的专家鉴定、评判、撰写说明甚至注解等一系列过程。从而保证本数据库不仅在技术上,而且在内容上处于学术界领先地位。它是一个学者和计算机专家共同开发的学术数据库,与商业性质的古文献电子化有本质区别。
    (3)本数据库将具备比较强大的检索、查询、报表、统计功能。根据使用者要求可提供全文检索和特定字段检索,例如根据作家小传可以精确统计所有元代比较著名作家的籍贯、地域分布、作品数量、作品体裁等,根据经费多少和程序设计方面的潜力,尽可能增强数据库的智能化特征,提供多种检索方式。为便于使用者使用和强化对所收文献精确性的信任度,本课题将对所收文献中的部分重要文献同时收录原始图片版本,以便与电子文本进行对照,如果使用者对库中文本文献的可信度有怀疑,可随时调出相应的原始文献图片进行比对,从而最大限度地保证所收文献的可信度,减少使用者复核文献的工作。鉴于该数据库容量庞大,文献众多,为保证数据库的正常运转,将采用清晰度较高而压缩比极强的图片压缩技术(如JEPG)等存储数据库中的图片文档。
    四、课题的研究意义
    1、作为一个大型数据库,本课题的学术价值体现在它是对一代文献的综合纂辑和整理,属于断代总集,是一个意义重大的文化工程。对于保护、保存元代文献,利用文献从事历史学、汉语史和古典文学研究具有举足轻重的意义。它使元代文学、历史和汉语史研究建立在可靠的文献基础之上,因为该数据库穷尽了除经部以外的几乎所有元代文献,对于整个学科的良性发展和学术水平的提高显然具有不可低估的重大意义。
    清代以前,对历代总集的编纂往往倾一国之力,组织规模庞大的学者群体,耗费数年时间才能完成。但由于编纂手段落后,缺陷遗憾甚多,重出误收作品比比皆是,往往付梓之日,就意味着修订的开始。宋代修《文苑英华》、《册府元龟》,清代修《全唐诗》、《全唐文》都不可避免地存在着这样的缺憾。新时期以来,北京大学纂辑《全宋诗》,仍使用传统方法,没有利用现代信息技术所带来的强大功能和便利,致使该项目收录重出作品几近五千首(根据北京大学新近研发的《全宋诗数据库分析系统》相关数据)。本课题作为利用现代信息技术纂辑的第一部断代文献总集,将极大地发挥技术优势,在编纂过程中,将历史上从事同类工作时易产生的缺陷降至最低限度。
    2、作为数据库,该项目虽然并不直接阐释理论问题,但仍具有重要的理论意义。主要表现在,作为第一个利用现代信息技术编纂的大型断代文献总集,无论在编纂体例、编纂方法、编辑校勘,还是在数据结构、字段设计、检索方式、报表打印等方面都具有开创和示范意义,为以后同类项目的开发积聚宝贵的经验。
    3、该项目具有十分重要的现实意义。主要表现在它能为广大学术界人士尤其是从事元代文学、历史和汉语史研究的学者提供切实可靠的服务。它使元代文学、历史和汉语史研究建立在更加可靠的文献基础之上,它以穷尽所有元代文献的方式为该领域的专家提供更加广阔的学术视野,对过去不为人注意的资料的开掘有可能生发出新的学术增长点,开辟新的研究领域,或形成新的学科或交叉学科。比如我们在前期准备工作中,发现了很多过去学术界没有注意的域外作家作品,无论对研究中外文化交流、国外汉学等都是极其宝贵的第一手资料。
    该课题完成后,可以以此为基础,开发出很多后续项目,将为我们拟议中的项目《元人笔记丛刊》、《全元杂剧》、《元代作家传记资料索引新编》等奠定良好的基础,而且这些后续项目由于以本数据库为基础,可以快速、优质地得到完成。

发表时间:2006-10-05 文章出处:本站原创 责任编辑: 【返回首页】 【关闭窗口】
   
中国社会科学院科研局/学部工作局 版权所有
地址:北京东城区建内大街5号 邮编:100732 Email:zhc-kyj@cass.org.cn