浙江大学徐永明团队打造古籍智慧数据共享平台——用科技手段激活古籍瑰
06月27日 19:10
浙江大学徐永明团队打造古籍智慧数据共享平台——
用科技手段激活古籍瑰宝(讲述·弘扬科学家精神)
打开浏览器,登录“智慧古籍平台”,可在线查阅4.4万篇古籍,除了著述、篇目详情等基本内容外,还有著者小传、人物行迹、世系图及社会网络关系图等延伸信息,全面立体地展现古籍内容,满足读者一站式查询、阅读与研究需求。
(资料图)
这是由浙江大学徐永明教授及其团队打造的人机交互式智慧数据共享平台,将中国古典文献和研究成果图谱化、智能化,打造了集浏览、查询、研究、欣赏于一体的古籍大数据平台,通过科技赋能,让古籍知识变得“触手可及”。
科技赋能,推动古籍资源“上线”
在浙江大学文学院,记者见到技术团队负责人徐永明时,他正专心致志地坐在电脑前,忙着审核已完成校对的古籍篇目并准备上线发布……
“目前平台已上线著述总字数约700万字。”说罢,徐永明招呼记者上手体验。在“智慧古籍平台”,古籍内容按“著述导览”“篇目导览”“著者导览”等板块分类呈现,界面设计古典雅致、功能齐全,令人眼前一亮……
“平台引入知识图谱理念,综合运用大数据进行计量统计、定位查询、聚类查询等,让读者轻松便利地获取古籍知识。”徐永明边演示边介绍,点击“篇目导览”按钮,即可进入文本阅读界面,“文本阅读是本平台的特色功能,为提高文本的真实性和准确性,平台提供了古籍图片与古籍数字化文本一一对应的功能。”
不仅如此,“智慧古籍平台”还有许多其他亮点:为降低阅读时查阅相关资料的频率,平台提供了关键字词释义功能,文本中重要信息及疑难词按照人名、地名、职官、时间、典故等不同类型以不同颜色显示,点击即可查看释义;借助地理信息系统软件,结合在线地理信息系统,古籍中留存的地理信息实现了可视化,点击著者详情,即可查看所链接的人物行迹图……
而提及地理信息可视化,不得不提徐永明团队的另一个平台——“学术地图发布平台”,其中汇集了李白、苏轼等500多位中华历史名人的行迹图、《全元诗》作者分布图等各类学术地图……“其实这个平台比‘智慧古籍平台’还要早一些,是中国首个综合性学术地图平台。”他介绍,平台迄今已发布1600余幅地图,共有70余个国家100万读者的访问量。
综合利用这两个平台,徐永明团队将文史数据与数字地图相结合,极大地增强阅读体验,旨在丰富读者对古籍知识的综合认知。
为解决技术难题,文科背景出身的徐永明自学编程
在徐永明看来,完善丰富的前端体验少不了强大的后台技术支持,“比如,要将古籍图像中的文字转换成文本格式,就需要OCR识别,即‘光学字符识别’技术,平台现用的OCR技术能较为精确地识别版刻古籍,准确率达到90%以上。”他向记者科普起来,再如,借助计算机学习技术,平台采用的“机器古籍标点技术”,可根据特定算法为古籍文本自动标注现代中文标点符号,准确率也稳定在90%以上。
“但正所谓‘隔行如隔山’,仅靠我一人无法建起这个平台,需要许多相关专业人员的支持。”他介绍,作为项目负责人,从2020年项目立项以来,他找来浙江大学计算机科学与技术学院、地球科学学院和校图书馆等相关学院和部门老师,组建起一支20余人的技术团队。
这期间,曾遇到不少难点,“比如,前期需要不断跟第三方公司磨合,解决前、后台页面设计、框架布局、功能模块等问题;到了后期,我们更换了合作方,又得重新磨合,主要解决地域导览、编辑器、职官图谱、智能OCR服务引入等相关问题。”徐永明说。
缘何要研发这样的古籍知识大数据平台?徐永明坦言,这跟自己早年的经历有关。上世纪90年代末期,他曾在浙江图书馆古籍部工作过一段时间,目睹了读者来看古籍善本有多不方便,比如只能抄录,复制的话也要经过许可,且费用很贵。
在他读博期间,国内还没有出全文检索的《四库全书》电子产品。那时,他写作博士论文材料,都是靠自己翻阅原书,一条一条抄录。这些经历让徐永明深深地感到,纸质文献难以保存传播,古籍信息存在“孤岛化”“碎片化”现象,“如今,数字技术发展日新月异,我们便琢磨着能否将大数据技术与古籍进行深度融合,为传承中华优秀传统文化探索新的可能。”
在“学术地图发布平台”开发阶段,面对界面不美观,操作不方便,功能有限,经常出现程序故障等问题,文科背景出身的徐永明开始了他的自学Python(计算机编程语言)开发之路。在他的朋友圈,他时常发布学习编程的动态、用Python完成的各种小成果、自己编写的代码,等等。
面对海量数据,徐永明善于利用团队的力量,“过去整理古籍,主要是个体作业,以书为单位,不能修改、不可关联,效率不高。”他说,“现在,我们将古籍整理任务通过勤工俭学、暑期社会实践等形式,遴选相关专业学生、专家,在线上线下一同参与,努力发挥集体的智慧。”
帮助读者扫除古代文献阅读障碍,推动古籍阅读普及化,激活学者的研究成果
浙江大学中国古代文学专业的博士生郝亚洁认领了新任务:对《徐文长文集》《吟香室诗草》等古籍的OCR校对结果进行二次审核。
“根据平台不同时期的需求,我的工作内容侧重点都有不同。”郝亚洁介绍,比如,在平台建设初期,同学们主要负责数据上传整理,“数据一般以一部文集为单位,需要制作目录文件把文集的文字内容按照篇目和影像一一对应。”后期,郝亚洁则负责OCR识别和机器标点校对后的人工审核等工作。
全程参与“智慧古籍平台”建设,让郝亚洁受益匪浅……在她眼中,徐永明是治学严谨的导师,自己从平台维护中收获良多。“比如,之前学过的Python计算机编程语言,就苦于没机会实践;现在的校对环节中,用Python代码检查不仅帮了我大忙,更体会到了什么叫‘活学活用’。”
平台运行至今获得各方好评,但徐永明坦言,“智慧古籍平台”建设任重道远,想要把浩如烟海的中华古籍资源利用起来,还有很长的路要走。“我们的初衷很简单,就是想为读者扫除古代文献阅读障碍,推动古籍阅读普及化,激活学者的研究成果,突破学术壁垒,将前沿的学术研究成果转化为社会大众共享的文化资源,同时改变‘数据在中国,数据库在国外’的现象。”
面向未来,徐永明团队定下了新目标:利用“智慧古籍平台”进一步推进古籍数据资源的整合和开放共享,用智慧化手段为中国古代典籍资源争取“主动权”,让古籍资源从“活下来”真正转变为“活起来”!
关键词:
浙江大学徐永明团队打造古籍智慧数据共享平台——用科技手段激活古籍瑰
06月27日 19:10
据卡塔尔半岛电视台网站6月26日报道,一名联合国专家敦促美国为其在关
06月27日 19:03
当前大家对于红菱村浙江省嘉兴市嘉善县西塘镇红菱村都是颇为感兴趣的,
06月27日 19:17
羽毛球的最高球速超过了壁球和网球,达到每小时261千米(壁球和网球的最
06月27日 19:08
佛珠刀专用在台钻机和佛珠机上使用,打出来的珠子才会圆,不跑偏;
06月27日 19:05
脚踏高原雪山,仰望浩瀚苍穹,逐梦星辰大海。近日,中建三局自主研发建
06月27日 18:58
组图:黄子韬点赞鹿晗彩虹头发型兄弟情谊好深!
06月27日 19:10
长安期货6月27日原油早评:上探无果维持震荡,短期关注库存数据变化
06月27日 19:16
共达电声表示,2023年一季度营收为2 75亿元,同比增16 73%;归属于上市
06月27日 18:55
意大利出口蛤蜊中检出沙门氏菌和大肠杆菌
06月27日 19:14
1、禅禅发音:[bb],也叫“巴巴”。ChanChan和娘惹(Nyonya)或原生华人
06月27日 19:07
相信大家对斯巴鲁傲虎原厂火花塞什么型号,傲虎火花塞多久换一次?的问
06月27日 19:12
南洋女儿情总体评分2023 老太太送给白薇的旗袍是黎紫薇的。陆家大少爷
06月27日 19:00
华声在线6月26日讯今日,记者从长沙住房公积金管理中心获悉,该中心在
06月27日 19:06
为避免强降雨可能引发的地质灾害威胁,共组织331起避险转移。
06月27日 19:15
九年后再次重聚京多安和莱万多夫斯基在九年后,在巴塞罗那再次重聚。这
06月27日 19:09
一、政策动向广东:支持建设粤港澳大湾区大数据中心探索在特定区域发展
06月27日 19:02
纺织服装板块多数上涨,比音勒芬涨停,锦泓集团、汇洁股份、洪兴股份涨
06月27日 18:55
以下是江西长运在北京时间6月27日13:50分盘口异动快照:6月27日,江西
06月27日 19:15
分时图快速拉升意味此时存在大单买入,在大单的推动下,股价快速地上涨
06月27日 18:59
摘要:2023年06月27日外高桥(600648)主力资金净流入283 56万元,占总
06月27日 19:12
2023年6月12日-22日,国际电信联盟无线电通信部门5D工作组(ITU-RWP5D
06月27日 19:04
你需要的东西两杯肥皂片或磨碎的白色肥皂条奶酪刨丝器(如果需要)
06月27日 19:02
【实探广州端午楼市:暴雨下房地产博览会人流量少南沙放松限购后引来深
06月27日 18:56
来源:北京日报客户端为期三天的第十四届夏季达沃斯论坛今天(27日)在
06月27日 18:55
6月28号开始,生肖狗发财之路顺风顺水,生活幸福安康,不仅财运暴涨,
06月27日 18:57
第十四届夏季达沃斯论坛今天(27日)起至29日在天津举行。这是论坛时
06月27日 18:55
有开发者异想天开,竟然为Windows3 1的个人电脑制作了一个ChatGPT应用
06月27日 18:57
1、头顶头发脱落严重,可能是雄激素性脱发和斑秃。雄激素性脱发又称脂
06月27日 18:54
一、如何应对民事诉讼调解后被告不履行民事诉讼调解后被告不履行的
06月27日 18:50