无障碍
x

全部频道

  • 北京
  • 中国
  • 国际
  • 评论
  • 经济
  • 科技
  • 文旅
  • 教育
  • 体育
  • 党建
  • 视频
  • 图库
  • 智库
  • 辟谣
  • 娱乐
中国> 正文

天将降大任于是人还是斯人?“识典古籍”里有参考答案

2022-11-01 16:36 永州新闻网

来源标题:天将降大任于是人还是斯人?“识典古籍”里有参考答案

最近,有关“故天将降大任于‘是人’还是‘斯人’”的话题登上网络热搜。不少网友表示,记忆中,语文教材里这句里是“斯人也”,现在却改为“是人也”。

对此,北京大学中文系教授孙玉文接受采访时表示,古代传下来的文献记录中,孟子这句用的就是“是人”。

事实上,到底是“斯人”还是“是人”,不仅可以查阅教科书,也可以在字节跳动新开发的识典古籍平台直接搜索古籍原文。

(《四库全书-孟子注疏》)

多年前,张一鸣就希望今日头条能做成一个百科全书。

他提到,当读到朱自清《背影》的时候,能不能马上在今日头条上看到背景知识?当时朱自清和父亲闹别扭好几年,而且是不说话的那种别扭,在这种背景下,他目送父亲回去,才会看着背影有感而发。如果能知道这些,用户对《背影》的理解可能会完全不一样。

而当下,字节跳动的古籍数字化公益项目——识典古籍,就是一个百科全书式的尝试,收录其中的,是比《背影》年代更久远的中国古籍。

据统计,中国现存古籍约20万种,建国以来,中国实现文本数字化的大概3-4万种,平均每年500多种,按照这个速度,实现古籍文本数字化大概需要两三百年。

能否借助AI的力量,加快中国古籍古籍数字化的步伐?

近日,由“北京大学-字节跳动数字人文开放实验室”研发的古籍数字化阅读平台“识典古籍”测试版正式上线。目前,字节跳动内部已经有15个项目组参与到古籍数字化当中来。

不只是将古籍通过OCR(图像转文字)技术进行数字化,更重要的是,通过NLP技术,让AI学会读古文,从而实现对古文进行断句、分词、打标点,进而实现古籍信息的搜索。

“过往我们如果想了解哪些文献提到了中国古建筑里的‘斗拱’,可能需要去图书馆一本一本的翻古籍,未来,我们可以通过识典古籍的平台一键搜索。”抖音集团企业社会责任部产品经理唐垲鑫举例说。

在过去的几年中,谷歌等国内外的科技公司都曾经提出古籍数字化的计划,但部分项目因为技术、版权等种种原因而阻力重重。

在字节跳动的规划中,这一平台将完全对公众免费开放,并尝试用“众包”的方式,邀请全社会一起参与到古籍数字化中来。

这一次,字节跳动能成功吗?

古籍数字化有哪些难点?

中华文明是人类文明史上唯一没有中断的古老文明。而没有中断的证据,就体现在中国拥有海量古籍上,但古籍的“续命”早已迫在眉睫。

全国高校古籍整理研究工作委员会主任安平秋曾将全国古籍工作比喻成一条大河,国家图书馆等中直机关在上游负责原版善本保存,中游高等院校和古籍研究所进行整理研究,再由古籍出版社进行整理、出版,最后还要进入一个大海,进行阐释应用,也就是传播和推广。

因此,从一条大河再到汪洋大海,其中涵盖的工作量可想而知。但在2015年之前,全国做古籍修复的人不到100人,而且连本科以上的高学历人才都没有。

目前,全国专业与半专业的古籍保护和研究人员,包括整理研究的出版的加在一块不到1万人。相比上千万册亟待修复的古籍来说,人才培养任重道远。

(国家图书馆副馆长张志清在台上分享全国古籍普查登记情况)

在新技术兴起之后,古籍数字化成为保护古籍重要途径。但用技术手段提高古籍数字化效率,也面临很大的挑战。

举个例子,古籍上使用的繁体字,存在异体字、生僻字、通假字等,同样一个汉字可能有几十种写法,在不同朝代,不同地方,甚至不同版本的书籍中写法都不一样,如何在数字化过程中准确识别,就面临较大挑战。

而且,古籍中没有标点,但现代人的阅读习惯是需要断句。以前,断句的工作是靠对古籍有足够了解的专家学者来完成,在人工智能时代,能否教会AI对古文进行断句、加标点,成为工程师们的一个目标。

更进一步,能否开发出一个工具产品,让全国的图书馆、古籍爱好者,乃至普通人都加入到古籍数字化中来?如果这些都能实现,无疑将大大加快古籍修复的进度。

字节跳动开发“识典古籍”

2022年3月17日,北京大学与字节跳动合作成立“北京大学-字节跳动数字人文开放实验室”,致力于研发开放的“古籍数字化平台”,将人工智能和大数据应用在古籍文献的保护和开发上,实现对古籍内容的智能化整理和文本知识图谱的自动生成。

近期上线的“识典古籍”平台测试版,便是这一合作的最新进展。

据项目负责人介绍,该平台主要使用了三种技术,即文字识别、自动标点、命名实体识别。文字识别技术,是对古籍的影印版文字进行单个切分、文字识别、顺序识别。自动标点技术,是通过序列标注的方式对古籍自动进行标点划分。命名实体识别,则是通过序列标注识别古籍文本中的命名实体,支持识别人名、地名、书籍、时间、官职等信息。

目前,行业内OCR识别准确率平均为93%至94%,“识典古籍”的准确率为96%至97%。

测试版上线之前,识典古籍平台已经进行了多轮内测。每次内测大概有2000人左右的用户参与,主要人群有三种,一种是普通大众,另一种是古籍爱好者,还有一种是古籍研究学者。

几轮内测下来收集了大概300多条问题,采取了中间90条进行了迭代,主要是一些体验方面的改进。比如有些古籍名字前后不一样。像《诗经》,它的底本其实名字叫《毛诗》。这样不同的名字,会影响搜索结果。

文字识别技术演示图

相比字节跳动内其他产品,识典古籍可能是用户量最小的一个,但这并没有降低识典古籍在字节内部的地位。

整个产品小组的人员主要从字节跳动内部进行招募,其中不少同事对古籍有浓厚的兴趣,个别产品经理本身研究生专业就是古典文献。

但这并不意味着开发识典古籍更容易。

以“搜索”功能为例,一次搜索动作的完成,背后有“分词、召回、排序”三大步骤。在分词这一环节,就首先遭遇了挑战。

“让AI去读古文,需要有足够多的语料去训练算法。”字节跳动人工智能实验室的工程师表示,对于白话文,字节拥有充足的数据,可以在此基础上做分词模型,但古籍方面的内容数据,任何平台都非常欠缺。

古文的语料,尤其是人工监督语料极为欠缺,成为制约整个业务发展的重点。最终,工程师们通过少量的公开的古籍分词语料,利用半监督学习和预训练的技术,形成了现在的古籍分词模型,提高搜索精确率。

到了“召回”的环节,则是考验系统对于繁简字、异体字、通假字的理解。为了提高召回率,字节团队做了包括繁简字、异体字的归一化,以及一些输入错误下的自我纠错机制等,来达到更好的搜索效果。

古籍要走向活化、大众化

识典古籍未来三年的目标是,利用人工智能在未来三年能够完成1万种古籍智能化整理,并且面向观众开放。

唐垲鑫表示,字节跳动旗下有抖音、头条这样的内容平台,公司希望古籍的知识内容不只是像博物馆一样束之高阁,而是能够触及到更多人。

(“识典古籍”负责人在介绍产品)

“我们希望打造更多的创意互动,它可能是视频形式,可能是以互动玩法,甚至是游戏的形式,让更多人对古籍产生兴趣,同时他们触及到古籍更深度的知识。”

换句话说,识典古籍希望将古籍中的人名、地名、书名都识别出来,抽取其中的关系,转成知识图谱形态,通过图谱跟百科联系在一起,甚至还可以跟抖音、问答、旅游等联系在一起,让大众能够更加高效地阅读古籍。

北京大学数字人文研究中心主任王军也是“北京大学——字节跳动数字人文开放实验室”的成员,他表示,在今天这样一个数字化、网络化、智能化的环境下,古典文献呈现方式可以多种形态,包括产品化、可视化、大众化,这是识典古籍要达到的目标。

“今天数字化环境下,我们不仅要把文字转移到数字化平台上,更重要的是让典籍文献跟我们今天的互联网信息形态融合在一起。”

这既是古籍大众化的命题,也是古籍活化的重要命题。

如何让一个习惯刷手机的普通用户对晦涩难懂的古代文献感兴趣,这同样是一个非常大的挑战。

之前,西瓜视频自制过一档纪录片名字叫《穿越时空的古籍》,介绍古籍修复和古籍历史故事,受到古籍保护相关部门高度评价。此外,包括抖音上的“寻找古籍守护人”项目等很多玩法都大受欢迎。

未来,识典古籍也会跟PICO业务合作,把古籍里的一些原生场景,通过VR方式复现出来,把古籍里的文化变成一些生动的场景和知识,让更多人产生对古籍的兴趣。

抖音号“红楼宴”,也在做类似的尝试。账号主理人郝振江是一位《红楼梦》爱好者,他的另一重身份是一名大厨。不过,他的账号只做《红楼梦》里出现的菜品。他将书中出现的108道菜品创作了出来,并且做成了短视频。在这个抖音账号里短视频既有文化气息,又能展示红楼梦里的美食佳肴,吸引了超过50万的粉丝。

(抖音账号红楼宴里的视频作品)

100多年前,胡适、傅斯年这些知识分子就提出“再造文明”。放在今天的环境中,就是“古籍重生”的意思,王军表示:“今天我们要传承文化典籍,转化到数字化环境下第一步就是要重新阐释,这并不是说一字一句重新翻译,而是要跟当代人生活结合在一起,为我们当代人精神提供养料,这样才能真正实现活化。”

责任编辑:程展驰(QV0029)
声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。
广告
广告
广告

热点排行

1
“首都图书馆珍藏版画典籍展”聚焦中轴万象
2
热带低压或将登陆粤西沿海 广东多地发布台风预警
3
2022年以来青海检方向困难妇女发放司法救助金超566万元
4
专家揭秘“电子烟”
5
沉浸式全方位体验!四川为市民端上一大盘安全“大餐”
6
中国控制吸烟协会副会长支修益:推动无烟环境创建不能留家庭“死角”
7
中国—中亚应急管理合作机制成立
8
从学业到产业 山东职教发展调研行聚焦产教融合
9
130家潮牌咖啡汇聚杭州 西湖咖啡文化节启幕
10
科普创新大赛“点燃”西藏青少年科技梦

频道推荐

“首都图书馆珍藏版画典籍展”聚焦中轴万象
文旅
北京市农业专家讲标准观摩活动成功举办
北京
孙杨回归接受专访 称会一直游下去
娱乐
民生直通车丨毕业生应聘,这十大“坑”要避!
中国
以球会友 北京西城两企三新“德胜杯”篮球邀请赛举办
体育

北京千龙新闻网络传播有限责任公司版权所有 未经千龙新闻网书面特别授权,请勿转载或建立镜像,违者依法必究新出网证(京)字013号 增值电信业务经营许可证 2-2-1-2004139 跨地区增值电信业务许可证

信息网络传播视听节目许可证0104056号 互联网新闻信息服务许可证11120180003号 京公网安备 11000002000007号

分享到:
QQ空间 新浪微博 微信 腾讯微博 QQ好友 百度首页 腾讯朋友 有道云笔记

4617作文网怎么算五行属什么命名点起名孙子起名男孩宁字在后起名女孩名字黄帝内经与周易高分取名起名大全顾姓女孩起名周易教程女孩子宝宝起名带钰算我的命运房产公司如何起名周易准不公司起名 策展周易取名大师哪位有名文体店铺起名给家具厂起名字随机起名字公司算死命小说全文阅读题梦见打蛇是什么意思 周公解梦周易算命生辰八字彩色的梦解析超准婚姻算命广州哪里有算命的周易起名字免费取名周易公司名起名软件万年历八字算命公司起个名字什么好小猫咪起名称如何给店铺起名字大全梦中的婚礼讲解淀粉肠小王子日销售额涨超10倍罗斯否认插足凯特王妃婚姻让美丽中国“从细节出发”清明节放假3天调休1天男子给前妻转账 现任妻子起诉要回网友建议重庆地铁不准乘客携带菜筐月嫂回应掌掴婴儿是在赶虫子重庆警方辟谣“男子杀人焚尸”国产伟哥去年销售近13亿新的一天从800个哈欠开始男孩疑遭霸凌 家长讨说法被踢出群高中生被打伤下体休学 邯郸通报男子持台球杆殴打2名女店员被抓19岁小伙救下5人后溺亡 多方发声单亲妈妈陷入热恋 14岁儿子报警两大学生合买彩票中奖一人不认账德国打算提及普京时仅用姓名山西省委原副书记商黎光被逮捕武汉大学樱花即将进入盛花期今日春分张家界的山上“长”满了韩国人?特朗普谈“凯特王妃P图照”王树国3次鞠躬告别西交大师生白宫:哈马斯三号人物被杀代拍被何赛飞拿着魔杖追着打315晚会后胖东来又人满为患了房客欠租失踪 房东直发愁倪萍分享减重40斤方法“重生之我在北大当嫡校长”槽头肉企业被曝光前生意红火手机成瘾是影响睡眠质量重要因素考生莫言也上北大硕士复试名单了妈妈回应孩子在校撞护栏坠楼网友洛杉矶偶遇贾玲呼北高速交通事故已致14人死亡西双版纳热带植物园回应蜉蝣大爆发男孩8年未见母亲被告知被遗忘张立群任西安交通大学校长恒大被罚41.75亿到底怎么缴沈阳一轿车冲入人行道致3死2伤奥运男篮美国塞尔维亚同组周杰伦一审败诉网易国标起草人:淀粉肠是低配版火腿肠外国人感慨凌晨的中国很安全男子被流浪猫绊倒 投喂者赔24万杨倩无缘巴黎奥运男子被猫抓伤后确诊“猫抓病”春分“立蛋”成功率更高?记者:伊万改变了国足氛围奥巴马现身唐宁街 黑色着装引猜测

4617作文网 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化