7 月 12 日至 14 日,第二十三届全国信息检索学术会议(简称CCIR2017)在上海召开。大会最后一天,由搜狗搜索与CCIR2017 联合举办的全国首届“面向智能问答的篇章排序”角逐评测陈诉、九支代表队伍技术陈诉及颁奖典礼也隆重举行,标识表记标帜着这场历时三个多月的大型评测角逐圆满落下帷幕。
为了持续鞭策中文信息检索技术和自然语言处理技术的发展及应用,搜狗搜索于本年 4 月 1 日联合CCIR2017 共同发起“面向智能问答的篇章排序”角逐。作为国内首次大规模真实用户问答数据集上的问答评测任务,本次大赛吸引了国内近 85 所高校学生及一批业内研究者的积极参与。
根据赛制,参赛者需在给定问题下,设计排序方法对候选篇章进行排序,并尽可能将包罗正确答案的篇章排在前面,最终根据篇章所含答案的完整度进行评定。本次大赛中,北京大学、华中科技大学、哈尔滨工业大学语言技术研究中心三支战队,从众多参赛队伍中脱颖而出荣膺三甲,别离获得由CCIR2017 与中国计算机协会(CCF)提供的成绩证书,及搜狗搜索提供的丰厚奖金。
作为大赛的联合主办方,搜狗搜索除了为广大高校学生、业内研究者提供展示和学习的平台外,更是借此机会,提供智能问答领域的大规模公开数据集,以促进学术界和业界在智能问答领域的研究发展,鼓励学术交流,提升研究水平。
目前在智能问答研究领域,可用的大规模公开数据集,尤其是反映真实用户问答需求的中文数据集非常稀缺。这很大程度上限制了业界及学术界关于智能问答的研究,使其研究局限于“事实性问答”领域,而无法涉及以满足广泛用户的通用问答需求为目标的“开放域智能问答”领域。
作为国内第二大搜索引擎,搜狗搜索是当前用户获取信息的重要手段,为大规模高质量问答数据的生成提供了可能性。据了解,构建“开放域智能问答系统”涉及到复杂的自然语言理解、大规模数据处理、机器学习、知识抽取和体现等人工智能研究领域的前沿技术,对这些技术的研究依赖大规模高质量的数据。此次“面向智能问答的篇章排序”角逐中,搜狗搜索先后公布了来自用户真实搜索需求的 5 万个问题,以及从搜狗搜索全网检索结果提供的 50 万条候选篇章。
事实上,基于对用户搜索行为及需求的洞察,搜狗搜索早已前瞻性地指出,搜索的未来是“智能问答”。通过“智能问答”,用户可以用自然语言与机器交流,搜索引擎不再是返回 10 条结果,而是像人一样给出答案和建议。搜索结果不只是匹配,而更是走到了理解的角度。基于此,搜狗搜索的人工智能技术坚持以自然语言处理为核心,在语言的基础上做自然交互和知识计算,并着力问答标的目的的技术创新,切实推进产品落地,办事用户搜索场景。
目前已经上线的搜狗“立知问答系统”就是搜狗研发的面向未来的搜索技术,在理解用户的问题或信息需求后,,“立知问答系统”利用海量网络信息及大规模知识库,能够直接给用户提供答案。目前,搜狗立知不但能精准回答事实性问题,在分析类问题、不雅观点类问题、数字类问题等领域,都能直接返回精确答案。而“立知问答系统”直接给出答案的背后,则包罗了语义分析、问题理解、信息抽取、知识图谱、信息检索、深度学习等众多人工智能技术。
“智能问答”能够让信息和知识的获取变得更加便捷,是自然语言处理和人工智能领域的前沿研究课题。作为行业引领者的搜狗搜索,以开放态度向学术界及业界提供智能问答领域的大规模公开数据集,鼓励学术交流,对行业“智能问答”研究的推进意义重大。
据悉,第二届“CIPS-SOGOU问答角逐”已经在筹备阶段。届时,作为主办方的搜狗搜索,将会公开更多数据集,为广大高校生和业内研究者提供更大的学习展示平台,从而引领学界和业界在智能问答研究领域不停取得突破。