当人工智能遇上“之乎者也”

时间：2022-10-11 11:51:38 来源：新京报作者：

人工智能如何读懂四书五经？

人工智能改变古籍存续形式

“整理国故，再造文明”，胡适在一百年前说。国故也即是古籍，古代的书，一般指1911年之前历朝写本、刻本、稿本、拓本等。这些纸质文献在悠悠历史长河中其命运可谓颠沛流离。纸质古籍损毁是不可逆转的。如明代《永乐大典》，永乐时期的原本已经完全湮灭不见，嘉靖重抄本11000册现存不到5%。这样的损失难以估量。

哲学家罗素曾说：“中华文明是唯一的历史文化从未间断的文明。”古籍作为中华文化的一支重要血脉，便是文明未断的依据之一，今年，国家图书馆藏清宫“天禄琳琅”历时8年修复成功，在标准的存藏条件下，能保存200年。

尽管古籍原生性保护有很大改善，但依然改变不了“纸”的脆弱。2015年年初，位于莫斯科西南部的俄罗斯科学院社会科学信息研究所图书馆突发火灾，约有200万册文献资料遭到损毁。俄罗斯科学院院长称“这是俄罗斯科学界的切尔诺贝利事件”。

在很多人的印象里，古籍文本往往艰涩难懂，而且接触机会不多。但在数字时代，这种情况正在发生转变，目前数字化、平台化、智能化成为古籍“再生性”保护的方向。在国外，哈佛燕京图书馆和美国国会图书馆，已经将他们收藏的中华古籍扫描完成，并对外公开。但它们仅仅是图片扫描版，并未利用智能技术实现文本化，无法复制粘贴，只能服务于少数研究者。

国内较为有名的古籍智能平台，如“汉典重光”古籍平台，让一批珍藏于加州大学伯克利分校的中文古籍善本，以数字化的形式回归，该平台涵盖的古籍数量为20万页。再如浙江大学的“古籍智慧平台”，其利用OCR光学字符识别技术，将图片中的文字换成文本格式，它的识别准确率在90%以上。

这些平台有着各自的优势，但也各有各的局限性，如网速慢、智能化程度低。比如“书同文古籍数据库”收费较高，“中国哲学书”电子化计划目前囊括了超过三万部著作，用户却常常无法正常访问。

今年3月，字节跳动与北京大学联合成立“北大——字节数字人文开放实验室”，双方协作研发推出古籍数字化平台——识典古籍。10月，识典古籍测试版已上线，目前，已整理上传390本古籍经典（均为四部丛刊书目），3000卷，3000多万字，预计在3年内将整理10000种古籍，基本覆盖儒家、道家和佛家的经典书目，对用户免费开放。

识典古籍平台主页面截图

古籍是如何实现数字化的？

识典古籍有何技术特点？项目负责人介绍，识典古籍主要运用了三种技术，文字识别、自动标点、命名实体识别。

文字识别技术，即使用OCR技术对古籍的影印版文字进行单个切分、文字识别、顺序识别。所谓文字切分，是指古籍扫描件中的单字检测技术，能够获取每个字符的具体位置；文字识别，将切分的图片送入文字识别模型，获取每个文字的具体编码；顺序识别，结合文字内容和文字位置，获取整张古籍扫描件的阅读顺序。

古籍数字化过程视频截图

OCR的应用流程，是用电子设备对纸本古籍进行扫描，内容转录到计算机中，并生成相应的数字文档，效率与人工录入不可同日而语。目前行业内OCR识别准确率平均为93%至94%，识典古籍的准确率为96%至97%。

自动标点技术，是通过序列标注的方式对古籍自动进行标点划分，支持“，。？！、：；”七种常用标点。举例来说，“学而时习之不亦说乎”，自动标点后的结果是“学而时习之，不亦说乎？”命名实体识别，则是通过序列标注识别古籍文本中的命名实体，支持识别人名、地名、书籍、时间、官职这五种类型的实体。

自动标点技术解析视频截图

人工智能识别的工作完成后，为了方便用户阅读，整理平台要进一步对成型的文本进行整理。

首先，是对3%和4%错误率进行人工修改，分出段落和标题，然后再赋予不同的格式。而对于不同质量的古籍文献，整理标准不一，人力承担着不同的职能，大致流程为制定整理标准、人工整理、审核、上架，相关管理者是有古籍知识经验的北大团队。

其次，是对用户访问数据进行统计。然后是资源管理的功能，用户可以更清晰地看到每本书的基础信息，具体内容，以及当前所处的整理状态。

最后，将古籍划分等级，如经典书目、常读书目、基础书目，像《论语》这种经典书目，对正确率、标点和注释的要求都较高。负责人介绍，目前这些功能有的已经成型，有的还需要进一步增强，古籍数字化并非易事。

古籍数字化的现实困境

中国是全球拥有古籍最多的国家，国内现存汉文古籍300万部，散居在海外的古籍超过40万部，它们依然面临着衰朽，而已完成数字化的古籍为7.4万部，数字化进程仍处于初步阶段。

其中面临几大难点。首先是部分古籍在数字化之前要先完成修复，但古籍修复工序复杂，难以完全用科技手段，且培养古籍修复人员需要极高的时间成本。其次，花费高昂，有专家估算，如果将全国尚未数字化的古籍全部数字化，采集、组织、加工、存储、管理等费用大约需要60亿元。第三，技术难度高，现有的数字化很多是由缩微胶片转换而成，呈黑白影像且分辨率较低，难以切实满足读者的需求。

过去，古籍内容转化为数字文本主要依靠专家人工录入，耗时费力。北京大学数字人文研究中心主任王军算过一笔账：我国现存古籍约有20万种，从1949年到2019年，共修复整理出版了近38000种，要将现存古籍全部修复整理出来，可能需要三百年的时间。若利用人工智能技术辅助修复整理，大概二三十年就能完成。

相关负责人介绍说，目前古籍的使用人数众多，一些高校斥资买古籍数据库，但是访问不是很方便。建立数字化平台，各类学科的专业人士能更容易查看古籍文献。一些潜在的古籍爱好者，数字化平台可将这部分用户迅速连接起来。

目前，识典古籍测试版的句读错误率在3%到4%，文字识别也有一定的错误率存在，影响阅读体验。在人工智能机器学习一段时间后，准确率将会提升到98%左右。

古籍修复师在工作

作为北京大学-字节跳动数字人文开放实验室的成员，王军有着丰富的古籍数字化经验，他曾研发过“《宋元学案》知识图谱可视化系统”，对240万字的《宋元学案》进行了文本处理和分析，将2000多位宋元理学学者、近100个学术流派所涉及的人物、时间、地点、著作等提取出来构造成知识图谱。

据他介绍，对于识典古籍的开发和应用，北京大学主要从三方面入手，第一，联络国内的图书馆寻求公版资源，保障版本的正当性；第二，联系北师大、复旦、南大、陕西师大等高校的学者和文献专家，进行人工审核与校对，弥补人工智能有识别错误率的短板；第三，北大利用自有的学术平台，链接学术界和高校的年轻用户，对识典古籍进行推广。

古籍保护的更多可能

字节跳动旗下有多个信息分发平台，沉淀着大量关于内容平台的经验和技术，这些技术可以逐渐向古籍智能数字化的方向上迁移。过去半年，识典古籍技术开发团队整合了包括字节跳动人工智能实验室、今日头条的设计团队和抖音的开发、测试团队成员加入，其中有不少是古文献专业和文史哲专业的成员。

识典古籍在使用性上强调用户体验，网页打开流畅。主页有检索栏，用户可直接搜索书目；右上方是书库，点进去可看到经、史、子、集四个栏目；下方是古籍书样，如《周易》、《荀子》、《左传》，主页下方是“儒家经典”“道家经典”“文学经典”三个栏目。点开一本书，左边是目录，右边是正文，上方有四个功能项，依次点击可看到古籍原本的影像、注疏、繁简字体切换以及书库，且每部古籍都有精校和粗校的标签提示。

点开古籍呈现出的界面

目前识典古籍只有网页版，相关技术负责人预测，今年11月份识典古籍将会推出移动端，到时会链接到抖音和今日头条，活化更多的古籍内容。

在数字化之外，一年多来，字节跳动在古籍修复和活化上也有所进展。现在，字节跳动资助国家图书馆定向修复的珍贵古籍104册件，现已完成50多册件，包括一批稀有的样式雷图档。在活化方面，抖音平台推出“寻找古籍守护人”计划，四大名著、二十四史、四书五经相关的视频播放量超过600亿次，涵盖漫画、影视、美食、音乐等多种内容体裁。

古籍承载着中华文明，它的传播是需要大众参与。未来，通过识典古籍，向全社会开放古籍阅读检索研究能力，还将实现全自动整理校对，更高效地实现存量古籍全部数字化。同时，鼓励拥有文献的学者自行上传文献，丰富平台内容，用户甚至可参与再创作和再阐释，与平台形成一种良性互动，助力古籍文化传承和研究。

Tags：人工智能点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

多方热议人工智能产业新机遇

编者按&emsp;&emsp;从前沿科技展会到高层对话平台，从上海、重庆到博鳌，从线上到线下……一场场高规格、大规模的盛会中，人工智能正在成为各界热议的高频词。赋能千...【详细内容】

2024-04-08　　Search: 人工智能点击:(6)　　评论:(0)　　加入收藏

谷歌或改变商业模式，人工智能搜索考虑收费

诸如ChatGPT这样的产品针对提问可以给出快速而完整的答案，这可能会使传统搜索引擎的链接列表和伴随这些链接出现的广告变得多余。谷歌考虑对人工智能搜索收费谷歌考虑对人工...【详细内容】

2024-04-07　　Search: 人工智能点击:(2)　　评论:(0)　　加入收藏

昆仑万维发布面向人工智能时代的六条人才宣言

过去的一年多，是人工智能取得非凡进步的一年。在这充满突破性技术飞跃和备受争议的一年里，我们见证了人工智能的快速发展和广泛的影响，人工智能已经迅速地融入了我们的生活，深刻...【详细内容】

2024-04-03　　Search: 人工智能点击:(10)　　评论:(0)　　加入收藏

生成式人工智能有哪些新趋势？

相较于去年，当下我们所能体验的人工智能技术的范围已经大幅提升。从搜索引擎、电商平台再到社媒平台，只要是以搜索结果为导向的内容，都会出现它的身影。但其实，人工智能的应用场...【详细内容】

2024-04-03　　Search: 人工智能点击:(6)　　评论:(0)　　加入收藏

关于AI人工智能在写作方面有哪些优势？

随着科技的快速发展，AI人工智能已逐渐渗透到我们生活的方方面面，其中在写作领域的应用也愈发广泛。AI人工智能在写作方面的优势不仅体现在其高效、精准的处理能力上，还体现在其...【详细内容】

2024-03-27　　Search: 人工智能点击:(17)　　评论:(0)　　加入收藏

生成式人工智能在搜索引擎优化（SEO）中的应用顶级案例

原文作者 | Rahul Solanki生成式人工智能正在迅速改变搜索引擎优化 (SEO) 的工作方式。这些新时代的语言模型和机器学习系统不仅可以研究大量信息，还可以理解上下文和含义，并...【详细内容】

2024-03-27　　Search: 人工智能点击:(10)　　评论:(0)　　加入收藏

苹果手机将搭载百度AI技术？百度人工智能A股小伙伴有这些

财联社3月24日讯（编辑若宇俞琪）据华尔街日报周五晚间报道，苹果在中国寻找本土生成式AI提供方，苹果讨论了在中国的设备中使用百度的人工智能技术。受该利好消息刺激，百度美股周...【详细内容】

2024-03-26　　Search: 人工智能点击:(15)　　评论:(0)　　加入收藏

“AI骗局”横行人工智能安全亟待加码

人工智能的“双刃剑”效应日益明显。AI技术在引发科技变革、提升生产力和效率等方面展现了充分的潜力，但与此同时，它带来的安全隐患也越来越凸显。利用深度伪造制造假象、操纵...【详细内容】

2024-03-22　　Search: 人工智能点击:(7)　　评论:(0)　　加入收藏

马斯克旗下人工智能大模型Grok已正式开源

鞭牛士报道，3月18日消息，据外电报道，埃隆·马斯克 (Elon Musk) 的人工智能初创公司 xAI 迈出了重大一步，开源了其大型语言模型 (LLM) Grok。这意味着企业家、程序员、公司...【详细内容】

2024-03-18　　Search: 人工智能点击:(13)　　评论:(0)　　加入收藏

《2024人工智能安全报告》：2023年AI深度伪造欺诈增长30倍

近日，奇安信集团发布《2024人工智能安全报告》（以下简称《报告》）。《报告》显示，2023年基于AI的深度伪造欺诈增长了3000％，基于AI的钓鱼邮件增长了1000％；目前已发现多个有国家背景的...【详细内容】

2024-03-18　　Search: 人工智能点击:(21)　　评论:(0)　　加入收藏

▌简易百科推荐

ChatGPT 应用商店？可能是一个万能应用程序！

OpenAI 在去年 11 月召开了一次开发者大会，首席执行官 Sam Altman 希望软件制造商在 ChatGPT 之上进行进一步的构建。OpenAI 表示，它将很快推出一个市场，开发人员和非技术人员...【详细内容】

2024-04-12　　视角先锋队　　　　Tags:ChatGPT 　点击:(2)　　评论:(0)　　加入收藏

Kyligence发布企业级AI解决方案！AI数智助理降低数据使用门槛

智东西作者 | 长颈鹿编辑 | 李水青智东西4月12日报道，昨日大数据分析和指标平台供应商Kyligence（硅智信息）召开了数智论坛暨春季发布会，并分享和探讨Data+AI产品及解决方案在金...【详细内容】

2024-04-12　　　　智东西　　Tags:Kyligence 　点击:(2)　　评论:(0)　　加入收藏

百度Create AI剧透：“三大开发神器”升级，模型增至77个，三步即可生成应用

智东西（公众号：zhidxcom）作者| 香草编辑| 李水青智东西4月11日报道，今日，在百度Create AI开发者大会预沟通会上，百度披露了“三大开发神器”AgentBuilder、AppBuilder、ModelBuild...【详细内容】

2024-04-12　　　　智东西　　Tags:Create AI 　点击:(2)　　评论:(0)　　加入收藏

李彦宏最新内部讲话：开源大模型不如闭源，后者会持续领先

界面新闻记者 | 李如嘉界面新闻编辑 | 宋佳楠4月11日，界面新闻获悉，百度创始人、董事长兼首席执行官李彦宏在一场内部讲话中首次谈及文心大模型为何不开源，以及对于大模型开源...【详细内容】

2024-04-12　　　　界面　　Tags:李彦宏　点击:(1)　　评论:(0)　　加入收藏

AI未来或超越“最聪明的人”？专家谈发展如何兼顾公平

中新社北京4月11日电 (记者马帅莎)到明年底或2026年，人工智能(AI)或超越“最聪明的人”，美国知名企业家埃隆·马斯克近日对人工智能的这一大胆猜想引起关注，这比他去年...【详细内容】

2024-04-12　　　　中国新闻网　　Tags:AI 　点击:(2)　　评论:(0)　　加入收藏

行业大模型快速落地的一年，如何做？

生成式AI正成为时下科技企业“讲故事”的关键词之一。但从发展上看，无论是“文生文”的大语言模型，还是“文生图”的多模态模型，更多的是辅助人们进行一些简单的办公，或者提供一...【详细内容】

2024-04-10　　　　钛媒体APP　　Tags:行业大模型　点击:(3)　　评论:(0)　　加入收藏

互联网充斥“针对小白的AI课”，能相信吗？普通人不学AI课程会被淘汰？

早前，一位标榜清华大学博士和多家公司AI顾问名头的百万级粉丝量博主，向用户大力推介“所有人都需要学”的AI入门课程。不过，这些课程最终因贩卖焦虑、蒙骗学员而被平台下架。然...【详细内容】

2024-04-10　　　　九派新闻　　Tags:AI课　点击:(9)　　评论:(0)　　加入收藏

藏在AI背后的“吃电狂魔”

人工智能时代的能耗黑洞据估算，到2027年，人工智能行业每年将消耗85~134太瓦时的电力，相当于瑞典或荷兰一年的总用电量。马斯克判断，电力缺口最早可能会在2025年发生，“明年你会看...【详细内容】

2024-04-09　　　　雪豹财经社　　Tags:AI 　点击:(4)　　评论:(0)　　加入收藏

OpenAI和谷歌再起纷争：AI的尽头是内容

日前，纽约时报的一篇报道称，人工智能公司 OpenAI为收集高质量训练数据而开发了一个语音转录模型Whisper。该模型主要用于转录 OpenAI 获取的超过 100 万小时的 YouTube 视频，也...【详细内容】

2024-04-09　　小编也疯狂　　新浪网　　Tags:AI 　点击:(4)　　评论:(0)　　加入收藏

AI产业的灰色暗面：OpenAI、谷歌、META如何搞训练语料

财联社4月7日讯（编辑史正丞）种种迹象显示，目前站在全世界AI领域潮头浪尖的这些公司，早在几年前就已经陷入对训练语料的“绝望”追逐中——为此他们不惜修改政策条款...【详细内容】

2024-04-09　　　　财联社　　Tags:AI产业　点击:(4)　　评论:(0)　　加入收藏

推荐资讯

早高峰打“飞的”有多	JavaScript的异步编程
Rust编程语言的内存安	数字人破解跨境直播难
Meta确认5月发布Llama	ChatGPT 应用商店？可能
社交网络与Web3：数字社	速查微信聊天最频繁对