2023年10月20日至23日,“第四届数据智能与知识服务研讨会”在武汉召开。会议由中国科学院文献情报中心主办,武汉科技大学、中国科学院武汉文献情报中心、Data Intelligence承办,中国人工智能学会多语种智能信息处理专业委员会、OpenKG社区协办。本届研讨会的主题是“通用AI与数据智能”,旨在探讨大模型时代下数据智能领域的新发展趋势和新的落地应用。为促进多语种智能信息处理研究,加强产学研交流与合作,由中国人工智能学会多语种智能信息处理专委会主办,中央民族大学、青海师范大学、北京理工大学和中国科学院网络信息中心共同组织,上海蜜度科技股份有限公司赞助举办了“多语种数据智能评测”论坛。论坛围绕“数据共享”和“公共评测”主题,开展多语种智能信息处理数据集发布和多语种图像描述生成技术评测两场专项任务。中国人工智能学会多语种智能信息处理专委会副主任、中央民族大学国家语言资源监测与研究少数民族语言中心(国家安全研究院语言信息安全研究中心)主任赵小兵教授,专委会秘书长、北京理工大学特聘研究员张华平,CCF术语工委副主任、中国计算机学会技术前沿委员会知识图谱SIG主席、全球最大中文开放知识图谱联盟OpenKG的发起人、同济大学无人自主智能国家重点实验室特聘研究员王昊奋,中国人民大学信息资源管理学院图书情报系副主任夏天,中央民族大学国家语言资源监测与研究少数民族语言中心(国家安全研究院语言信息安全研究中心)特聘研究员陈波,内蒙古师范大学计算机科学技术学院副院长斯琴图等专家学者出席了本次会议。
10月22日上午,赵小兵教授主持召开了多语种智能信息处理数据集发布专题论坛,论坛在B站进行了同步直播。本次论坛收录数据论文22篇,涉及中文以及蒙、藏、维、哈、朝、泰、越南、印地等8个语种;数据集任务涉及多语种机器翻译、信息抽取、实体识别与对齐、知识图谱、文本摘要、阅读理解、大模型训练等多项自然语言处理、语音处理和计算机视觉任务的数据论文报告。
首先,中央民族大学陈波副教授对多语种数据集收稿情况进行了介绍。随后收录论文作者分别对数据集进行了公开发布和宣讲,录用论文被推荐至《Data Intelligence》(EI和ESIC检索,2022年影响因子3.9)或《中国科学数据》(CSCD检索)发表。
10月22日下午,中国人工智能学会多语种智能信息处理专委会发布了“多语种数据智能评测MDIE2023--多语种图像描述生成技术评测”结果及获奖队伍,并特邀中国人民大学夏天副教授做了题为“多语种文本校对技术分享”专题报告。
发布会由专委会秘书长张华平研究员主持,会议过程同步在B站上进行了直播。本次评测针对图像描述生成任务,在公开数据集Flickr8k的基础上汇集整理了蒙古语、藏语和维吾尔语三个语种的评测数据集,分别开展图像生成技术评测。本次评测从2023年9月16日发布任务至10月12日截止回收评测结果,共计收到蒙古语5个队伍、藏语7个队伍、维吾尔语5个队伍报名参赛,涵盖高校、科研机构以及企业界的参赛队伍,最终收到蒙古语10个结果、藏语12个结果、维吾尔语10个结果。评测采用与Microsoft COCO Caption Evaluation相同的评估指标,包括BLEU(1-4)、METEOR、ROUGE、CIDEr进行综合评估。评测结果如下:
多语种图像描述生成技术评测MDIE2023获奖情况
随后,获奖队伍在论坛上分享了各自的技术路线和参赛经验。
本次“第四届数据智能与知识服务研讨会”多语种智能评测论坛的成功举办为推动人工智能多语种优质数据资源的持续汇聚、传播共享、评测服务、技术交流与可持续发展发挥了重要作用。今后,中国人工智能学会多语种智能信息处理专委将力争打造具有国际影响力的人工智能多语种数据集,提升我国多语种智能信息领域的国际影响力,共同推动多语种智能信息处理研究的进步。