日前,由搜狗搜索联合中国中文信息学会(CIPS)共同举办的“CIPS-SOGOU问答角逐”正式启动报名。作为国内首档基于大规模真实用户问答数据集的问答评测任务,此次大赛的举办,不但能为参赛者提供挑战及展示能力的舞台,还将促进学术界及业界在智能问答领域的研究发展,鞭策智能问答系统更加广泛地面向公众提供信息办事。
此次问答角逐分为事实型问答和非事实型问答两项子任务。根据赛制,参赛者需要按照给定的问题设计算法,从候选篇章中抽取合适的词语、短语或句子,作为问题的尺度答案,能够实现正确、完整、简洁地回答问题。每个问题对应给出 10 个候选答案篇章,每个篇章约50 -500 个汉字。
在评测指标方面,事实型问答子任务将采用Accuracy和Precision-Recall(F1)指标对预测答案进行评价,其中Accuracy计算预测答案和尺度答案是否精确匹配,F1 计算预测答案相对尺度答案的词级重合度,以两者平均值作为最终指标。非事实型问答子任务采用ROUGE和BLEU指标对预测答案进行综合评价。
据悉,此次角逐的事实型问答子任务,将从 9 月 1 日起开始提交报名,有兴趣参赛的高校生、业内研究人员等,可通过“搜狗实验室”官网提交报名信息。非事实型问答子任务,则将在 12 月中旬开始接受提交报名,并陆续公布角逐数据集和Leaderboard。在 2018 年CIPS的学术年会上,将会对两项子任务中胜出的团队进行颁奖。
值得一提的是,作为联合主办方的搜狗搜索,将向大赛提供来自搜索引擎的大规模真实用户问答数据集。其中, 6 万个问题(事实型问题 3 万、非事实型问题 3 万),代表了最真实广泛的网民信息需求; 60 万对应问题的候选篇章,,来自搜索引擎返回的若干互联网页面;而经过对页面进行人工分析标注,搜狗搜索构建了针对问题的尺度答案,最终形成大规模、极具价值的问答数据集。
据了解,目前在智能问答研究领域,可用的大规模公开数据集,尤其是反映真实用户问答需求的中文数据集非常稀缺。业界和学术界受限于技术、数据等因素,当前的研究主要针对“事实型问答”领域,而在与用户搜索场景息息相关的“开放域智能问答”领域则一直无法取得突破性进展。搜狗搜索此次公开的大规模数据集,不但能促进“CIPS-SOGOU问答角逐”的正常开展,还能将给整个智能问答行业的研究发展提供名贵的数据支撑,从而鞭策智能问答系统更加广泛地面向公众提供信息办事。
事实上,凭借在人工智能领域的持续投入及搜索引擎的数据优势,搜狗搜索目前在智能问答领域已处于行业领先地位。搜狗搜索此前已上线的“立知”智能问答系统,就是搜狗研发的面向未来的搜索技术。该系统能够理解用户搜索意图和问题,直接为用户提供想要的答案。目前“立知”智能问答系统不但能精准回答事实性问题,在分析类问题、不雅观点类问题、数字类问题、隐式问题等方面,都能直接返回精确答案,背后应用了语义分析、问题理解、信息抽取、知识图谱、信息检索、深度学习等众多人工智能技术。
作为智能问答领域的引领者,搜狗搜索在切实推进产品落地、为用户带来优质搜索体验的同时,也注重向行业开放问答能力,不停鞭策业界及学术界的研究发展。本年 4 月份,搜狗搜索曾联合CCIR 2017( 2017 全国信息检索学术会议)成功举办了国内首次大规模真实用户问答数据集上的问答评测任务——首届“面向智能问答的篇章排序”评测角逐,并公开了来自用户真实搜索需求的 5 万个问题以及从搜狗搜索全网检索结果提供的 50 万条候选篇章,极大促进了智能问答技术的发展和应用。
比拟“面向智能问答的篇章排序”评测角逐,此次“CIPS-SOGOU问答角逐”的赛制、公开数据集等都将进行全新升级,将会在更大程度上促进智能问答领域的学术交流和研究水平。对此次问答评测角逐感兴趣的高校生或业内从业者,均可报名参加。
报名链接:
如果想了解主播的最新直播动态,还等什么,赶紧扫描下面的二维码、或者点击下载链接安置神兽直播,一键关注全网主播!