非遗对话大模型助力中国非遗文化走向世界
源 / 新财网    文 / 新财网    2024年11月04日 08时48分

  ◎本报记者 金 凤 通讯员 赵志枭

  宋锦既然起源于苏州,为什么叫宋锦?为什么会有宋锦到蜀锦的发展转变?缫丝使用梭子的方式与一般织布有何不同?近日,在《中国世界级非遗文化悦读系列》丛书发布会上,一款同步推出的“非物质文化遗产大语言模型”引人注目。在模型中输入上述问题,一个个翔实、生动的答案跃入眼帘。

  南京农业大学信息管理学院王东波教授接受记者采访时表示,他带领团队联合南京大学“术语与翻译跨学科研究基地”推出的这款模型,致力于推动非遗文化的数字化保护,为非遗文化的保护与传播开辟新路径。

  “非物质文化遗产是中华优秀传统文化的重要组成部分,我们希望通过打造一款非遗领域的人工智能大模型,促进中华优秀传统文化的国内外传播。”王东波介绍,目前的通用领域大模型虽然在语言能力与通用知识领域表现出色,但缺乏对特定领域知识的了解。通过专业领域的数据开展预训练,能够弥补通用大模型在非遗知识领域的匮乏。

  “在非物质文化遗产领域,数据的独特性与复杂性是大模型构建的关键挑战。”王东波表示,为确保非遗大模型能够精准理解和运用文化遗产领域的独特知识,研究团队在数据收集阶段,从中国非物质文化遗产网的政策、资源、学术等五大板块获取并整理了海量数据,并利用学术文献数据库中的大量非遗相关期刊论文摘要,通过对网页内容的分类解析和论文摘要的整理,构建了一个内容丰富、预训练数据总字数超1868万字的数据集。

  在王东波看来,高质量数据集的构建是非遗大语言模型获取相关领域专业知识的必要条件。为使模型能够更好地理解和响应非遗相关问题,研究团队通过对数据的量化分析和组织专家的深度参与,构建了面向非遗的知识实体标注方案,所完成的知识实体精标注语料库总字符数超176万。

  经过长期的人工数据标注与校验,团队实现了非遗数据知识实体的精细标注。为进一步丰富训练数据,研究团队结合数据生成的特性,与南京大学术语与翻译跨学科研究基地的魏向清教授团队合作,依托超大型语言模型,融入了《中国世界级非遗文化悦读系列》丛书中的对话内容,对已有非遗文本数据进行转换与增强,构建了高质量的非遗知识对话数据。

  依托南京农业大学高性能算力平台,研究团队训练出非遗领域基座大模型,又在非遗知识对话数据的基础上进一步构建了非遗对话大模型。

  “非遗对话大模型可以实现非遗文化的智能化传播与知识普及,目前,这款模型有中英文两种语言模式。后期我们也将尝试引入其他语种,将不同地域的非遗文化融合,打破语言障碍,助力中国非遗文化走向世界。”王东波表示,团队希望通过非遗领域大语言模型,促进传统故事、技艺、习俗等内容的数字化、知识化、系统化保护与利用,建立非遗的长效保护体系,确保非遗的可持续发展。

网友讨论
还可以输入 200 个字符
热门评论

建议及投诉热线010-85869906

广告刊登热线010-85862238

  • 关注官方微信

  • 关注官方微信

中国人民银行 | 中国银行业监督管理委员会 | 中国保险监督管理委员会 | 中国证券业监督管理委员会 | 路透社 | 华尔街日报 | FT中文网 | 中国互联网金融企业家俱乐部(ECIF) | 工业和信息化部域名信息备案管理系统
Copyright © 2008-2030 北京大白熊网络信息有限公司 京ICP备16038172号-1 all rights reserved本网站所刊部分稿件为网络转载,若有侵权请您及时联系我们,我们会及时删除,本网站对所转载内容不承担任何的责任,请网民对相关内容的真实性自行判断。
账号登录
记住密码
账号注册
账号注册

*昵       称

*输入密码

*确认密码

*姓       名

*电子邮箱

*国家地区

*省       份

*出生年份

*性       别  男          女

*从事职业

*从事行业

请您留下正确的联络方式,以便我们能够及时与您取得联系

*手机号码

填写您要订阅的邮件
  •   我愿意接受有关新财网的新功能或活动的信息
  •   我愿意接受有关其他网站和产品的新功能或活动的信息
  •   我愿意接受第三方服务供应商的特别优惠的信息