终极十强! “达观杯”文本挑战赛完美落幕

2018-09-20 10:41:48 阅读：306041+

　　第二届“智慧中国杯”(ICC)由四川省经济和信息化委员会、四川省教育厅、成都市经济和信息化委员会指导，成都大数据产业技术研究院主办，DataCastle数据城堡承办。旨在通过新一代大数据科学技术构建可持续发展的国家数据智慧生态，实现城市及国家的数据智慧式管理发展。

　　作为第二届“智慧中国杯”(ICC)的重要组成部分，9月16日，“达观杯”文本智能处理挑战赛颁奖盛典在上海正式举行。

　　本次比赛历时两个多月，由达观数据主办，DataCastle数据城堡承办、机器之心和浦东软件园协办，并得到了复旦大学、上海交通大学、东南大学的合作支持，以及 CIO 时代、中国中文信息学会、51CTO、CSDN 等行业和媒体合作伙伴的大力支持。

　　本次大赛共计有3731人报名，3131支队伍参赛，提交数达到了14438次!吸引了包括微软，腾讯，阿里巴巴、百度、京东、携程、小米，以及著名金融巨头、运营商、军工行业等354个国内外知名企业的技术人员，以及来自斯坦福、北大、清华、复旦等国内外知名高校的学生参与。

　　最终比赛角逐出的十强团队：TNT_000_、未提交参与排名@CortexLabs

　　、会说话的机器狗、随缘比赛、地表最强@CortexLabs

　　、CIKE-华腩鲤、NLPRookie、redhand、彳亍口巴、万里阳光号。颁奖当天十支获胜队伍带着各自在比赛中的技术实践心得前来现场，颁奖盛典也因此成为了精彩的技术交流盛宴。

　　达观数据创始人陈运文致辞分享

　　在颁奖典礼上，达观数据创始人陈运文分享了自己的经历：“想要灵活应用好在学校里学习的基础算法，需要更多的应用练习。这也是我们做达观杯的初衷，给更多算法爱好者提供真实的场景练习，让技术在真实的场景中发挥它最大的价值。探索技术在行业的应用场景是达观数据持续在做的事情。”

　　本次赛题任务为”建立模型通过长文本数据正文(article)，预测文本对应的类别(class)”，本次算法大赛命题人，达观数据联合创始人张健也在现场分享了命题的初衷。

　　自然语言处理一直是人工智能领域的重要话题，而人类语言的复杂性也给 NLP 布下了重重困难等待解决。长文本的智能解析就是颇具挑战性的任务，如何从纷繁多变、信息量庞杂的冗长文本中获取关键信息，一直是文本领域难题。随着深度学习的热潮来临，有许多新方法来到了 NLP 领域，给相关任务带来了更多优秀成果，也给大家带来了更多应用和想象的空间。

　　比赛中达观数据提供了一批长文本数据和分类信息，从比赛结果来看，选手们做了非常多的尝试与应用，取得了很好的效果。

　　十强分享，精彩连连

　　本次比赛的十强选手，现场分享了他们在比赛过程中的经历，如何对算法调参，如何突破效果瓶颈，每支团队分享结束后，观众席中举手提问的人络绎不绝，预计的演讲分享成为了算法交流的盛会。

　　季军团队CIKE-华腩鲤的成员谈星伟在分享最后总结了他们在比赛中对文本分类算法的发现：

　　当使用了较好的词权重衡量方法时，传统的向量空间模型仍然有一定竞争力;基于LSTM的模型容易受噪声影响，在文本长度较长的情况下，适当使用数据增强能够提升效果; 模型之间的差异性越大，融合之后的结果就会越好，传统模型和深度学习模型融合之后能提高1个百分点; 融合模型较少的时候，直接使用等权重概率融合就会有很好的结果。

　　颁奖盛典，荣耀时刻

　　本次比赛主办方达观数据为各优秀的参赛选手准备了丰厚的奖金和直通面试机会。