智源人工智能算法大赛现已正式启动!本次比赛由北京智源人工智能研究院主办,清华大学、北京大学、中科院计算所、旷视、知乎等协办,总奖金超过 100 万元,旨在以全球领先的科研数据集与算法竞赛为平台,选拔培育人工智能创新人才。
北京智源人工智能研究院(Beijing Academy of Artificial Intelligence,BAAI)是落实“北京智源行动计划”的重要举措,在科技部和北京市委市政府的指导和支持下,由北京市科委和海淀区政府推动成立,是依托北京大学、清华大学、中国科学院、百度、小米、字节跳动、美团点评、旷视科技等北京人工智能领域优势单位共建的新型研发机构。在 2018 年 11 月 14 日举行的 2018 中国(北京)跨国技术转移大会开幕式上,智源研究院正式揭牌。
本次智源人工智能算法大赛有两个重要的目的,一是通过发布数据集和数据竞赛的方式,推动基础研究的进展。特别是可以让计算机领域的学者参与到其他学科的基础科学研究中;二是可以通过比赛筛选、锻炼相关领域的人才。
北京智源人工智能研究院院长、北京大学教授黄铁军介绍:智源的中心任务是在北京建成全球最优的人工智能创新生态,核心是选拔培育人工智能顶尖人才和发展潜力大的青年学术英才。研究院副院长刘江也表示:“我们希望不拘一格来支持人工智能真正的标志性突破,即使是本科生,如果真的是好苗子,我们也一定支持。”而人工智能大赛就是发现有潜力的年轻学者的重要途径。
2019 智源算法大赛将包括 10 道赛题,覆盖机器视觉、自然语言处理、推荐系统等机器学习领域,也将覆盖粒子物理学、神经生物学、药物化学、工业制造等基础或应用学科。比赛的数据来自全球顶尖企业和研究实验室,代表了最前沿的学科方向。
▶▷ 任务描述
比赛将提供知乎上的问题、话题、用户画像和用户回答记录等数据。希望选手可以预测某个专家是否会接受某个用户就某个问题向他发出的回答邀请。
为了协助选手更好地搭建模型,本次比赛提供了 10 万个话题数据、180 万个问题和 475 万个回答数据、190 万个脱敏的用户画像和回答记录数据,以及 1000 万条邀请数据。
▷▶ 数据集
比赛将提供知乎的问题信息、用户画像、用户回答记录,以及用户接受邀请的记录,要求选手预测这个用户是否会接受某个新问题的邀请。
1. 问题信息。包括<问题id、问题创建时间、问题的话题、问题的文本、问题的描述等>;
2. 用户的回答。包括<回答id、问题id、作者id、回答的文本、回答时间、点赞数、收藏数、感谢数、评论数>等;
3. 用户人画像数据。包括<用户id、性别、活跃频次、关注话题、长期兴趣、盐值>等;
4. <topic、token(词)、单字 64维embedding> 数据;
5. 最近一月的邀请数据包括<问题id、用户id、邀请时间、是否回答>。。
▶▷ 任务描述
为应对当前虚假新闻泛滥的现状,将虚假新闻带来的危害最小化,我们设立此赛题以促进对虚假新闻自动化检测方法的研究。针对虚假新闻的特点,我们设立了三个子任务:
Task 1:虚假新闻文本检测:文本是新闻信息的主要载体,对新闻文本的研究有助于虚假新闻的有效识别。具体任务为:给定一个新闻事件的文本,判定该事件属于真实新闻还是虚假新闻。
Task 2:虚假新闻图片检测:虚假新闻图片是指虚假新闻中的配图。在虚假新闻中,新闻配图往往也包含着丰富的信息,有助于虚假新闻的判别。具体任务为:给定一张图片,要求参赛者判断该图片是虚假新闻图片还是真实新闻图片。
Task 3:虚假新闻多模态检测:随着多媒体技术的发展,新闻当中通常都包含着文本与图片等多模态信息,不同模态之间既存在着增强关系,同时也包含着互补信息。如何充分利用多模态信息进行虚假新闻检测仍是一项具有挑战的工作,为此,我们设立虚假新闻多模态检测子任务以促进该领域研究。具体任务为:给定一条新闻的多模态内容,包括文本、配图、用户特征等,要求参赛者判断该新闻属于虚假新闻还是真实新闻。
▷▶ 参考论文清单
为便于参赛选手了解已有方法,主办方整理了参考论文清单:
• Jin Z, Cao J, Zhang Y, et al. Newsverification by exploiting conflicting social viewpoints in microblogs. AAAI2016.
• Jin, Z., Cao, J., Zhang, Y., Zhou, J.,& Tian, Q. Novel visual and statistical image features for microblogs newsverification. TMM, 19(3).
• Jin, Z., Cao, J., Guo, H., Zhang, Y.,& Luo, J. Multimodal fusion with recurrent neural networks for rumordetection on microblogs. MM 2017.
• Guo H, Cao J, Zhang Y, et al. Rumordetection with hierarchical social attention network. CIKM 2018.
• Qi P, Cao J, Yang T, et al. ExploitingMulti-domain Visual Information for Fake News Detection. ICDM 2019.
• Guo C, Cao J, Zhang X, et al.Exploiting Emotions for Fake News Detection on Social Media. arXiv:1903.01728.
除了首批发布的数据外,其余 8 道赛题将于未来两个月内陆续发布。北京智源人工智能研究院副院长、清华大学计算机系教授唐杰表示:“本次智源的数据算法大赛,一方面促进了数据共享,提升数据使用效率,另一方面以赛代训,提升了广大学生和工程人员的技术水平,很有意义。”
人工智能正以前所未有的速度改变这个世界,也在改变我们探索自然,连接彼此,生产内容,制造产品的方式。业内人士普遍认为,依托北京智源人工智能研究院强大的科研实力和数据开放计划,2019 智源人工智能算法大赛将成为促进学科交叉,推动算法进展,发掘潜力人才的重要活动。
来源 | BAAI