2023语言与智能技术竞赛开辟“双赛道”：寻找“全民测评官”，探索AI多模态能力,北航论坛

2023语言与智能技术竞赛开辟“双赛道”：寻找“全民测评官”，探索AI多模态能力

浏览：451 评论：0 人

cradyLV.5: 2023/5/18 21:33:48

开年以来，人工智能大语言模型（LLM）掀起新一轮全球科技竞赛，全球科技巨头打响“百模大战”。当大语言模型正深刻改变人类生产生活方式时，该如何进一步释放其潜能，成为业界关注的问题，也成为了2023语言与智能技术竞赛命题的起点。
5月17日，2023语言与智能技术竞赛正式启动，该大赛由中国计算机学会（CCF）和中国中文信息学会（CIPS）联合主办，百度公司、中国计算机学会自然语言处理专委会和中国中文信息学会评测工作委员会承办。本届大赛设置“大语言模型能力评估”和“视频语义理解”两大赛道，立足现实难题，发掘创新人才，助推技术发展。

紧跟技术趋势命题全球人才集结“揭榜”
语言与智能技术竞赛自2018年开始，已连续举办5届，凭借面向真实应用场景的任务设计和源自真实场景的数据集，获得产学研各界关注，成为全球最权威、最热门的中文自然语言处理赛事之一。
历届竞赛先后组织了阅读理解、人机对话、语义解析、信息抽取等评测任务，覆盖自然语言处理和人工智能领域的重要前沿课题，对于推进相关技术研究及智能搜索、智能推荐、智能交互等人工智能应用发展具有重要意义。每届赛题如同英雄帖，吸引超过2000支队伍前来“揭榜”，其中80％选手来自全球多所顶尖高校和科技企业，覆盖金融、互联网、传媒、通信、工程机械、能源、生物等多个行业。
当前，大语言模型作为“大数据+大算力+强算法”的产物，基于万亿级数据集预训练后能应对多样化需求，被视为AI迈向AGI（通用人工智能）的里程碑技术。本届竞赛紧跟技术趋势，设置“大语言模型能力评估”和“视频语义理解”两大赛道，旨在携手全球创新人才，为推动语言与智能领域技术发展和应用贡献力量。

寻找“全民测评官”　构建大模型能力评估体系
不同于往届竞赛主要面向专业AI开发者，本届大赛第一条赛道“大语言模型能力评估”向所有用户发出邀请。该赛道希望选手从底层能力（生成、逻辑等）、专项能力（创作、问答等）以及在真实场景的应用能力等维度出发，制定评估方案和数据示例，为大语言模型构建能力评估体系。　　　　
这一赛题的设置让个人用户和中小规模开发团队尤为振奋。一方面，大语言模型扎推问世，出现同质化等问题，亟待提出全面、有效的评估方法；另一方面，模型参数量已激增至万亿级，单次训练成本高昂，仅百度等头部企业有能力承担。而通过参加语言与智能技术竞赛，选手只需从自身对大模型的理解出发，建立逻辑顺畅的评估维度和评价标准，就能低成本地参与技术变革。作为承办方，百度将为所有选手提供全新一代知识增强大语言模型文心一言的邀请码，帮助选手更好地建立大模型评估体系。

评估体系示例

这也意味着，第一条赛道几乎“零门槛”。不限年龄、不限专业，无需代码基础，只要有理有据就能担任“全民测评官”，帮助人们了解大语言模型在不同场景的适应性和局限性，从而打造得更加安全、可控。

探索多模态能力“天花板”　强化视频语义理解　
第二条赛道“视频语义理解”则重点面向专业AI开发者，评测任务以互联网视频为输入，需在感知内容分析（如人脸识别、OCR识别、语音识别等）的基础上，通过融合知识、NLP、语音等多模信息，结合知识图谱计算与推理，为视频生成多知识维度的语义标签。
这一任务，是大赛对AI多模态能力及AGI的一步初探。多模态被业界认为是大语言模型下一步的发展方向，和人类基于视觉系统进行大部分信息获取类似，AI也正从文本、语音、视觉等单模态智能向多种模态融合的AGI方向发展，GPT-4的识图能力和文心一言的文生图能力均是多模态能力的体现。
参与第二条赛道的选手，将获得由百度提供的基于飞桨平台的基线系统，以便快速上手，达成最佳竞赛条件。同时，选手还可以基于百度飞桨的人工智能学习与实训社区AI Studio，使用在线编程环境，获取免费GPU算力支持，打破算力桎梏，不断深化对AI多模态能力的认知。

“百模大战”现下正酣，AGI不再遥远。正如百度CTO王海峰所说，“大模型的通用性越来越强，AGI在一定程度上已经实现，但AI为人类带来价值才是我们努力的方向”。本届竞赛两大赛道，既联合AI时代最广泛的参与者，构建全面、科学的评估体系，也鼓励专业AI开发者坚定地朝着下一个技术高点前行，让AI服务于人类更美好的生活和社会的发展。同时，百度也通过竞赛、校企合作等方式，持续推进“5年500万AI人才”计划，为国家战略科技力量建设持续贡献。
即日起，2023语言与智能技术竞赛报名通道已开放，详情可点击大赛官网http://lic2023.ccf.org.cn/查看。大赛还准备了丰厚的赛事奖池，获奖团队将有机会在2023语言与智能高峰论坛与众多领域专家介绍作品。