您当前的位置:首页 > 电脑百科 > 人工智能

当人工智能遇上“之乎者也”

时间:2022-10-11 11:51:38  来源:新京报  作者:

人工智能如何读懂四书五经?

人工智能改变古籍存续形式

“整理国故,再造文明”,胡适在一百年前说。国故也即是古籍,古代的书,一般指1911年之前历朝写本、刻本、稿本、拓本等。这些纸质文献在悠悠历史长河中其命运可谓颠沛流离。纸质古籍损毁是不可逆转的。如明代《永乐大典》,永乐时期的原本已经完全湮灭不见,嘉靖重抄本11000册现存不到5%。这样的损失难以估量。

哲学家罗素曾说:“中华文明是唯一的历史文化从未间断的文明。”古籍作为中华文化的一支重要血脉,便是文明未断的依据之一,今年,国家图书馆藏清宫“天禄琳琅”历时8年修复成功,在标准的存藏条件下,能保存200年。

尽管古籍原生性保护有很大改善,但依然改变不了“纸”的脆弱。2015年年初,位于莫斯科西南部的俄罗斯科学院社会科学信息研究所图书馆突发火灾,约有200万册文献资料遭到损毁。俄罗斯科学院院长称“这是俄罗斯科学界的切尔诺贝利事件”。

在很多人的印象里,古籍文本往往艰涩难懂,而且接触机会不多。但在数字时代,这种情况正在发生转变,目前数字化、平台化、智能化成为古籍“再生性”保护的方向。在国外,哈佛燕京图书馆和美国国会图书馆,已经将他们收藏的中华古籍扫描完成,并对外公开。但它们仅仅是图片扫描版,并未利用智能技术实现文本化,无法复制粘贴,只能服务于少数研究者。

国内较为有名的古籍智能平台,如“汉典重光”古籍平台,让一批珍藏于加州大学伯克利分校的中文古籍善本,以数字化的形式回归,该平台涵盖的古籍数量为20万页。再如浙江大学的“古籍智慧平台”,其利用OCR光学字符识别技术,将图片中的文字换成文本格式,它的识别准确率在90%以上。

这些平台有着各自的优势,但也各有各的局限性,如网速慢、智能化程度低。比如“书同文古籍数据库”收费较高,“中国哲学书”电子化计划目前囊括了超过三万部著作,用户却常常无法正常访问。

今年3月,字节跳动与北京大学联合成立“北大——字节数字人文开放实验室”,双方协作研发推出古籍数字化平台——识典古籍。10月,识典古籍测试版已上线,目前,已整理上传390本古籍经典(均为四部丛刊书目),3000卷,3000多万字,预计在3年内将整理10000种古籍,基本覆盖儒家、道家和佛家的经典书目,对用户免费开放。

识典古籍平台主页面截图

古籍是如何实现数字化的?

识典古籍有何技术特点?项目负责人介绍,识典古籍主要运用了三种技术,文字识别、自动标点、命名实体识别。

文字识别技术,即使用OCR技术对古籍的影印版文字进行单个切分、文字识别、顺序识别。所谓文字切分,是指古籍扫描件中的单字检测技术,能够获取每个字符的具体位置;文字识别,将切分的图片送入文字识别模型,获取每个文字的具体编码;顺序识别,结合文字内容和文字位置,获取整张古籍扫描件的阅读顺序。

 

古籍数字化过程视频截图

OCR的应用流程,是用电子设备对纸本古籍进行扫描,内容转录到计算机中,并生成相应的数字文档,效率与人工录入不可同日而语。目前行业内OCR识别准确率平均为93%至94%,识典古籍的准确率为96%至97%。

自动标点技术,是通过序列标注的方式对古籍自动进行标点划分,支持“,。?!、:;”七种常用标点。举例来说,“学而时习之不亦说乎”,自动标点后的结果是“学而时习之,不亦说乎?”命名实体识别,则是通过序列标注识别古籍文本中的命名实体,支持识别人名、地名、书籍、时间、官职这五种类型的实体。

 

自动标点技术解析视频截图

人工智能识别的工作完成后,为了方便用户阅读,整理平台要进一步对成型的文本进行整理。

首先,是对3%和4%错误率进行人工修改,分出段落和标题,然后再赋予不同的格式。而对于不同质量的古籍文献,整理标准不一,人力承担着不同的职能,大致流程为制定整理标准、人工整理、审核、上架,相关管理者是有古籍知识经验的北大团队。

其次,是对用户访问数据进行统计。然后是资源管理的功能,用户可以更清晰地看到每本书的基础信息,具体内容,以及当前所处的整理状态。

最后,将古籍划分等级,如经典书目、常读书目、基础书目,像《论语》这种经典书目,对正确率、标点和注释的要求都较高。负责人介绍,目前这些功能有的已经成型,有的还需要进一步增强,古籍数字化并非易事。

古籍数字化的现实困境

中国是全球拥有古籍最多的国家,国内现存汉文古籍300万部,散居在海外的古籍超过40万部,它们依然面临着衰朽,而已完成数字化的古籍为7.4万部,数字化进程仍处于初步阶段。

其中面临几大难点。首先是部分古籍在数字化之前要先完成修复,但古籍修复工序复杂,难以完全用科技手段,且培养古籍修复人员需要极高的时间成本。其次,花费高昂,有专家估算,如果将全国尚未数字化的古籍全部数字化,采集、组织、加工、存储、管理等费用大约需要60亿元。第三,技术难度高,现有的数字化很多是由缩微胶片转换而成,呈黑白影像且分辨率较低,难以切实满足读者的需求。

过去,古籍内容转化为数字文本主要依靠专家人工录入,耗时费力。北京大学数字人文研究中心主任王军算过一笔账:我国现存古籍约有20万种,从1949年到2019年,共修复整理出版了近38000种,要将现存古籍全部修复整理出来,可能需要三百年的时间。若利用人工智能技术辅助修复整理,大概二三十年就能完成。

相关负责人介绍说,目前古籍的使用人数众多,一些高校斥资买古籍数据库,但是访问不是很方便。建立数字化平台,各类学科的专业人士能更容易查看古籍文献。一些潜在的古籍爱好者,数字化平台可将这部分用户迅速连接起来。

目前,识典古籍测试版的句读错误率在3%到4%,文字识别也有一定的错误率存在,影响阅读体验。在人工智能机器学习一段时间后,准确率将会提升到98%左右。

古籍修复师在工作

作为北京大学-字节跳动数字人文开放实验室的成员,王军有着丰富的古籍数字化经验,他曾研发过“《宋元学案》知识图谱可视化系统”,对240万字的《宋元学案》进行了文本处理和分析,将2000多位宋元理学学者、近100个学术流派所涉及的人物、时间、地点、著作等提取出来构造成知识图谱。

据他介绍,对于识典古籍的开发和应用,北京大学主要从三方面入手,第一,联络国内的图书馆寻求公版资源,保障版本的正当性;第二,联系北师大、复旦、南大、陕西师大等高校的学者和文献专家,进行人工审核与校对,弥补人工智能有识别错误率的短板;第三,北大利用自有的学术平台,链接学术界和高校的年轻用户,对识典古籍进行推广。

古籍保护的更多可能

字节跳动旗下有多个信息分发平台,沉淀着大量关于内容平台的经验和技术,这些技术可以逐渐向古籍智能数字化的方向上迁移。过去半年,识典古籍技术开发团队整合了包括字节跳动人工智能实验室、今日头条的设计团队和抖音的开发、测试团队成员加入,其中有不少是古文献专业和文史哲专业的成员。

识典古籍在使用性上强调用户体验,网页打开流畅。主页有检索栏,用户可直接搜索书目;右上方是书库,点进去可看到经、史、子、集四个栏目;下方是古籍书样,如《周易》、《荀子》、《左传》,主页下方是“儒家经典”“道家经典”“文学经典”三个栏目。点开一本书,左边是目录,右边是正文,上方有四个功能项,依次点击可看到古籍原本的影像、注疏、繁简字体切换以及书库,且每部古籍都有精校和粗校的标签提示。

点开古籍呈现出的界面

目前识典古籍只有网页版,相关技术负责人预测,今年11月份识典古籍将会推出移动端,到时会链接到抖音和今日头条,活化更多的古籍内容。

在数字化之外,一年多来,字节跳动在古籍修复和活化上也有所进展。现在,字节跳动资助国家图书馆定向修复的珍贵古籍104册件,现已完成50多册件,包括一批稀有的样式雷图档。在活化方面,抖音平台推出“寻找古籍守护人”计划,四大名著、二十四史、四书五经相关的视频播放量超过600亿次,涵盖漫画、影视、美食、音乐等多种内容体裁。

古籍承载着中华文明,它的传播是需要大众参与。未来,通过识典古籍,向全社会开放古籍阅读检索研究能力,还将实现全自动整理校对,更高效地实现存量古籍全部数字化。同时,鼓励拥有文献的学者自行上传文献,丰富平台内容,用户甚至可参与再创作和再阐释,与平台形成一种良性互动,助力古籍文化传承和研究。



Tags:人工智能   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com),我们将及时更正、删除,谢谢。
▌相关推荐
昨天,CG画家乌合麒麟登上微博热搜,却不是因为推出新作品,而是对目前业内讨论得热火朝天的“AI绘画”争议表达了自己的观点。随着今年各类人工智能绘画网站和软件上线,一些依靠接...【详细内容】
2022-10-13  Tags: 人工智能  点击:(0)  评论:(0)  加入收藏
人工智能如何读懂四书五经?人工智能改变古籍存续形式“整理国故,再造文明”,胡适在一百年前说。国故也即是古籍,古代的书,一般指1911年之前历朝写本、刻本、稿本、拓本等。这些纸...【详细内容】
2022-10-11  Tags: 人工智能  点击:(0)  评论:(0)  加入收藏
人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人工智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一...【详细内容】
2022-10-10  Tags: 人工智能  点击:(8)  评论:(0)  加入收藏
极客网·人工智能9月22日 人工智能的开发和应用需要采用大量数据。提供给机器学习算法的数据越多,就越能更好地发现模式、做出决策、预测行为、个性化内容、诊断医疗状...【详细内容】
2022-09-22  Tags: 人工智能  点击:(20)  评论:(0)  加入收藏
9月1日,2022世界人工智能大会(WAIC 2022)于上海正式开幕,大会所打造的沉浸式元宇宙空间成为一大亮点。...【详细内容】
2022-09-01  Tags: 人工智能  点击:(46)  评论:(0)  加入收藏
当前,人工智能与实体经济融合已取得积极进展,数据和算力资源日益丰富、应用场景不断拓展,已渗透到经济社会发展的方方面面。人工智能正像水电煤一样,以更大范围、更高效率、更加...【详细内容】
2022-08-17  Tags: 人工智能  点击:(32)  评论:(0)  加入收藏
本报讯(记者 刘苏雅)近日,科技部印发《关于支持建设新一代人工智能示范应用场景的通知》,首批将支持建设自动驾驶、智慧家居、智能教育、智能诊疗等十个示范应用场景。科技部将...【详细内容】
2022-08-16  Tags: 人工智能  点击:(61)  评论:(0)  加入收藏
谷歌前首席执行官埃里克施密特将人工智能比作核武器,并呼吁建立一种威慑机制,类似于相互保证的毁灭,以防止世界上最强大的国家相互毁灭。相互保证毁灭(Mutually Assured Destru...【详细内容】
2022-08-12  Tags: 人工智能  点击:(53)  评论:(0)  加入收藏
近日据外媒Verge报道,美国联邦巡回法院已裁定,人工智能系统的创造不能获得发明专利,因为它们不是人类。这项裁决是对斯蒂芬·塞勒博士提交给法院的众多案件之一的回应。...【详细内容】
2022-08-09  Tags: 人工智能  点击:(134)  评论:(0)  加入收藏
人工智能,即AI(ArtificialIntelligence),是一门包含计算机、控制论、信息论、神经生理学、心理学、语言学等综合学科。该概念第一次在达茅斯顿学术会议上提出:人工智能是从计算...【详细内容】
2022-08-02  Tags: 人工智能  点击:(61)  评论:(0)  加入收藏
▌简易百科推荐
昨天,CG画家乌合麒麟登上微博热搜,却不是因为推出新作品,而是对目前业内讨论得热火朝天的“AI绘画”争议表达了自己的观点。随着今年各类人工智能绘画网站和软件上线,一些依靠接...【详细内容】
2022-10-13    上观新闻  Tags:人工智能   点击:(0)  评论:(0)  加入收藏
很多人一听到“机器人”这三个字脑中就会浮现“外形酷炫”、“功能强大”、“高端”等这些词,认为机器人就和科幻电影里的“终结者”一样高端炫酷。其实不然,在本文中,我们将探...【详细内容】
2022-10-12  Erudite科汇  搜狐号  Tags:机器人   点击:(8)  评论:(0)  加入收藏
人工智能如何读懂四书五经?人工智能改变古籍存续形式“整理国故,再造文明”,胡适在一百年前说。国故也即是古籍,古代的书,一般指1911年之前历朝写本、刻本、稿本、拓本等。这些纸...【详细内容】
2022-10-11    新京报  Tags:人工智能   点击:(0)  评论:(0)  加入收藏
人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人工智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一...【详细内容】
2022-10-10  Finovy Cloud  今日头条  Tags:深度学习   点击:(8)  评论:(0)  加入收藏
如果说乔布斯向全球科技行业亲身诠释了牛仔裤将成为最顶级的时尚;那顶着东西方不同面孔的黄仁勋和埃隆·马斯克则反复提醒着世界,黑皮夹克才是属于新时代的大佬 icon。...【详细内容】
2022-10-03  GeekCar   搜狐号  Tags:机器人   点击:(18)  评论:(0)  加入收藏
Pine 发自 凹非寺量子位 | 公众号 QbitAI支持10余种图像文本任务,囊括20多种数据集,还提供SOTA模型性能和可复现预训练及微调实验配置。没错,这是一个视觉语言深度学习框架就可...【详细内容】
2022-10-01  量子位    Tags:深度学习   点击:(6)  评论:(0)  加入收藏
通过百度MrcpServer实现简单的呼叫对话机器人。一、参考百度AI接入指南,创建应用,获取AppID、API Key、Secret Key,用于后续配置使用https://ai.baidu.com/ai-doc/REFERENCE/Ck...【详细内容】
2022-09-28  IT界螺丝钉  今日头条  Tags:MrcpServer   点击:(26)  评论:(0)  加入收藏
智东西(公众号:zhidxcom)作者 | 李水青编辑 | 心缘人形机器人,正在硬科技圈里掀起一阵新热潮。几天之后,特斯拉的首款人形机器人,代号Tesla Bot(特斯拉机器人)或Optimus(擎天柱),将在特...【详细内容】
2022-09-28  智东西  搜狐号  Tags:机器人   点击:(16)  评论:(0)  加入收藏
极客网·人工智能9月22日 人工智能的开发和应用需要采用大量数据。提供给机器学习算法的数据越多,就越能更好地发现模式、做出决策、预测行为、个性化内容、诊断医疗状...【详细内容】
2022-09-22    极客网  Tags:人工智能   点击:(20)  评论:(0)  加入收藏
作者 | 锦恢@知乎 (已授权)来源 | https://zhuanlan.zhihu.com/p/220403674编辑 | 极市平台一、网络结构的可视化我们训练神经网络时,除了随着step或者epoch观察损失函数的走势...【详细内容】
2022-09-19  极市平台  今日头条  Tags:PyTorch   点击:(50)  评论:(0)  加入收藏
站内最新
站内热门
站内头条