日前,知识社交平台知乎举办的 「2017知乎·看山杯机器学习挑战赛」顺利结束。该角逐从 8 月 15 日正式开始,一共为期 3 个月,大赛以语义分析应用为赛题,由创新工场人工智能工程院副院长王咏刚老师,东南大学计算机学院教授、博士生导师漆桂林教授、清华大学计算机系副教授黄民烈、知乎高级副总裁李大海担任导师。角逐一共吸引了 919 支来自全球各个院校以及工业界的算法挑战队伍参与。8 月 30 日,知乎正式公布角逐结果,,最终来自北京邮电大学模式识别实验室的 init 团队成功夺魁。
据悉,知乎将于 9 月 2 日在北京总部举办颁奖礼,颁奖礼现场还会举办「基于人工智能的自然语言处理」主题沙龙。沙龙上,角逐导师将和知乎合伙人、高级副总裁李大海一起分享、讨论当前人工智能及 NLP 领域的进展。
参赛选手亮点频频 角逐结果超预期
本次角逐一共设置 3 个奖项,其中一等奖 1 名,二等奖 2 名,三等奖 3 名。二等奖获得者为北京邮电大学模式识别实验室的 Koala 团队、中国科学院计算机算研究所网络数据重点实验室的 YesOfCourse 团队。
三等奖获奖团队则包孕:北京大学的 NLP Fakers 团队,英国伦敦大学学院数据科学专业及武汉大学计算机学院的 Gower Street & 81 Road 团队,北京邮电大学模式识别实验室的 ye 团队,北方交通大学和西安交通大学的 Yin & Bird 团队。
这批算法江湖的语义分析高手不单可以获得 80,000 元奖金,还有机会亲自参与和改进知乎的内容理解技术,参与改善千万知乎用户的使用体验 。
为了验证结果,在获奖队伍提交其方法说明及可复现的代码和模型数据后,评审委员会逐一评审获奖队伍的方法及代码,而且随机抽取其中一些队伍提交的模型,使用别的一份验证数据集进行结果验证。通过对获奖结果的复现,评审委员会发现,这些参赛队伍提交的模型都表示出了非常强的泛化能力,在新的评审集上,模型的表示和原有的验证集基本一致。
关于这次大赛的整体评价,评审委员会认为,“选手在角逐中会把一些最前沿的技术运用进来,或在比较复杂的模型上调整效果,在数据预处理、模型训练、模型集成等环节都提出了新颖想法,非常有亮点,好比 init 团队在数据增强方面进行了富有创意的工作, Koala 团队在进行神经网络训练的时候,使用了逐层 boosting 的方法来提升单个神经网络模型的表示。”
聚集自然语言处理喜好者 开放数据助力 AI 研究
知乎机器学习挑战赛负责人张瑞曾体现,举办角逐的主要目的,一方面,是为了吸引大家对于机器学习,特别是自然语言理解(NLU)领域的兴趣。并把机器学习喜好者聚集起来碰撞出一些思维的火花,同时参赛者也可以提升本身对自然语言处理领域的兴趣和能力,相互双赢。
另一方面,知乎也希望通过角逐开放部分数据,为 AI 在国内的发展提供一些助力。比拟国外的ImageNet、Gigaword 等高质量数据集,中文互联网相关的高质量数据集是相对缺乏的。而作为中文互联网最大的知识社交平台,知乎累积了非常多的高质量文本语料和其他各种各样的数据。
知乎接下来还将在开放数据方面做更多努力,后期会在知乎「知识青年」和「Hacker’s Log」等专栏继续发布赛题对应的明文数据,以及一些与知乎密切相关的数据集和机器学习任务,例如内容保举、社交网络链接预测等数据集。所有数据集会经过严格脱敏和审核。
知乎机器学习愿景 满足优质内容获取需求
作为一款用户体验导向的产品,知乎上大量的人工智能,以及机器学习技术,归根结底是了为支撑用户的使用体验。作为一家技术型互联网公司,知乎对技术一直有着本身的想法和追求。知乎认为,算法更高价值的地方,在于算法有机会了解人的潜在需求,打破信息获取障碍,提升学习效率。目前,知乎机器学习团队已经搭建了一套基础生态体系,通过算法实现了用户画像、内容分析、内容个性化推送等,其效率比过去的人工运营方式提高了数十倍。
未来,知乎希望通过机器学习和算法满足用户的阅读兴趣,进一步满足关乎用户自我提升的优质信息获取需求。作为一个拥有 2300 万日活用户,每天有数以十万计的高质量的 UGC 内容产生的网站。机器学习技术可以帮知乎做到的不只是「分发」内容,还能更深入地「理解」内容,从而帮手用户更好地获取有价值信息,带来更好的内容浏览体验。