惠每科技算法团队荣获评测第二名
本届大会同时开展了系列评测竞赛,旨在为研究者们提供一个测试技术、算法及系统的平台。大赛设置了四个评测主题共7项评测任务,惠每科技算法团队凌鸿顺、葛承泽、王杰等成员参加了“任务7:PromptCBLUE医疗大模型评测”的通用赛道。
经过3个多月的激烈角逐,团队完成了十余个任务,通过不同任务分组训练的方法,在平均7个评测指标得分后得到72.28分。最终,惠每科技算法团队从396支参赛队伍中脱颖而出,获得通用赛道第二名。同时,团队测评结果论文《Advanced PromptCBLUE Performance: A Novel Approach Leveraging Large Language Models》被大会录用。
惠每科技算法团队测评论文(部分)
在以ChatGPT、GPT-4等为代表的大语言模型(LLM)大行其道的背景下,几乎所有的NLP任务都转化为了基于提示的语言生成任务。然而,在中文医学NLP社区中,尚未有一个统一任务形式的评测基准。为推动LLM在医疗领域的发展和落地,华东师范大学计算机学院王晓玲教授团队联合阿里巴巴天池平台、复旦大学、复旦大学附属华山医院、东北大学、哈尔滨工业大学(深圳)、鹏城实验室与同济大学推出PromptCBLUE评测基准,对CBLUE基准进行二次开发,将16种不同的医疗场景NLP任务全部转化为基于提示的语言生成任务,形成首个中文医疗场景的LLM评测基准。
在PromptCBLUE评测任务下,大赛采用94个指令微调模板,对CBLUE基准中的各个任务进行改造,统一转化为基于prompt进行回复生成的形式。该任务不仅在此次比赛中开放评测,后期也会在天池平台长期开放,供大模型及医疗行业从业者使用。
据悉,全国知识图谱与语义计算大会源自中文知识图谱研讨会(CKGS)和中国语义网与万维网科学大会(CSWS),2016年两会合并,曾在北京、成都、天津、杭州、南昌、广州(线上)和秦皇岛举办。目前,大会已经成为国内预训练大模型、知识图谱、语义技术等领域的核心学术会议,聚集了知识表示与推理、自然语言理解与知识获取、图数据管理与图计算、智能问答等相关技术领域的学者和研发人员。
成为我们的
合作伙伴