第18章 结果提交(1 / 1)
一般来说,比较成熟的竞赛榜单分为两种,一种是公共榜单,一种是最后的私有榜单。 对应的数据也不相同,分为验证集和测试集。 这两部分数据的真实答案都不会公布出去,但在参赛者提交结果之后,公共榜单只会公布验证集部分的结果供大家参考,而不会公布最终测试集上的结果和内容。 这是因为实时的榜单排名只是为了帮助大家理解自己的算法大概在什么水平,和最强的算法差了多少。虽然没有直接提供答案,但是如果参赛者调整设置反复提交结果,还是可以一定程度上分析到这部分数据的内容和分布的。 故而,这部分数据只做参考之用,最终决定排名的只有测试集的那部分。因此赛事的公共榜单只能一定程度上反应问题,没法百分之百地表示最终的名次。 “虽说有的赛时榜单根本不用于最后的排名,但人们却很容易被这种榜单的魔力所吸引。”孟繁岐想起后世和唐璜参加过两次小型比赛,不知道为什么整天就想盯着那个榜单使劲看。 自己的提交成绩高了一名,低了一名都会引起心情的巨大波动。 “什么行业都是这样的,你看什么小说行业,影视剧行业,明星行业。创造焦虑嘛。”唐璜不以为然,“没有焦虑就搞个榜单创造焦虑,人人都想当人上人,这榜单一出啊,就像是平静的水池里洒进了一把鱼饵。原本翻着肚皮不动弹的鱼就全活络起来了。” “体育圈也是,最爱说谁是goat(历史最强),什么詹姆斯pk科比,梅西对战c罗。”唐璜继续吐槽道,体育圈现在饱受这种风气所害,马上都快变成饭圈了,“统计的数据也越来越多越来越离谱,以前就统计一个进球,现在连哪个部位进的球也统计,我前几天还看到有人说c罗的弟弟进了一个球。” 孟繁岐在查看提交结果的信息,乍一听愣了一下,“c罗还有弟弟呢?” 仔细一想才回过味来,搞了半天是二弟。 其实11月11号,提交网站就已经被公布出来了,这一年的提交窗口期很短,也不像后来的很多竞赛那样分验证集,在赛时开放公共榜单提交。 11月13号,结果的提交就会截止。 不知不觉又是四五十天过去,孟繁岐反复打磨了几遍这几篇论文。 不仅如此,等到后来他发觉论文里的实验已经跑完,便将检测算法接在了已经训练了很久的分类模型上,又跑起了检测赛事的数据。 检测任务是分类任务的进阶,在你的程序分辨出这张图片的类别之后,更进一步的操作就是用矩形框把该物体的位置在图片中位置给圈出来。也就是后来大家熟悉的人脸上的框框。 再进一步就是分割了,不采用矩形框这样大的,规则的图形,而是像素级别地把某个物体的细致轮廓在图片上表示出来,也就是一种类似自动抠图的操作。 当然了,不论是检测还是分割,都是需要人工去标注训练集的原始答案的。 imagenet-2013的检测赛道数据集不算太大,一共接近40万张图片,共区分200类。这种进阶类型的数据,标注起来要辛苦很多,因此数据量和分类不可同日而语。 不过,相比2012年的5717张,区区一年的时间,已经是百倍的巨大飞跃了。 “没想到时间竟然会这么多。”孟繁岐记得这时候的检测大多数还是基于传统hog,lbp的办法,在13年的这个数据集上map最高也就0.225左右。 自己既然来得及完成论文上的实验,自然要抽空去降维打击一下这些老古董方法。 每个参赛队伍在各任务上有三次提交的机会,孟繁岐只需要一次就够了。 参与竞赛的队伍往往会训练好几个版本的模型,然后做一些排列组合的集成,分多次提交,以确保自己的结果不会被一些不稳定的因素影响。 这也是追求更高性能的一种办法,因为谁也无法保证自己的哪一次结果在位置的数据上性能最好。 有时候第一名和第二名,就差在毫厘之间,可能只是小数点后的两三位。 只是孟繁岐完全没有这个必要这么做。 余下的时间也来不及再做什么,孟繁岐本想11号就早早把结果提交,多一事不如少一事。 但唐璜却阻拦他,说英雄总要最后一步到场,才显得特别戏剧化。 “这提交也不是实时显示的,而是14号统一公布结果。”孟繁岐指出了这么一个尴尬的问题。 “额..”唐璜只得强撑着解释道,“虽然其他人看不到,但主办方不是看得到嘛。在最后关头,给他们一点小小的中国震撼!” 大洋彼岸,斯坦福大学的ai实验室sail成立于1963年首次神经网络的浪潮中。见证了ai的两次热潮和两次衰退。 如今,它由青年华裔科学家,imagenet的组织者李飞飞指导。 李飞飞09年开启imagenet项目时还在普林斯顿,她后来来到了斯坦福,升任终生教授,并于今年开始领导斯坦福的ai实验室。 接手这么一个有历史的实验室不是一件容易的事情,再加上今年的imagenet竞赛刚刚结束,李飞飞此刻相当的忙碌。 她昨天看了一眼新一年的成绩,意料之中。 今年没有看到什么特别开创性的论文,大家基本上还处于对alexnet的学习,和新赛道的摸索当中。 深度神经网络去年一枝独秀,力压群雄,但谁又能百分百的肯定这就是正确的道路呢? 即便是表现最好的模型也仍旧有11个点以上的top-5错误率,而且通常来说,这个结果还可能是多个网络集成预测的,只是刷榜好用,这种方式并不具备实际的应用价值。李飞飞并不希望自己一手打造的imagenet成为刷子乐园。 路漫漫其修远兮。 就在此时,自己的电话突然响起,李飞飞拿起手机看了一眼,是邓嘉。 “holyshit,老师你快看赛事的验证结果。” 邓嘉的声音听起来非常激动,一上来就飚了一句shit。 “结果?什么结果。”李飞飞还不知道发生了什么事情,她昨天已经看过榜单了,大家的水平都差不多,今天又能统计出什么东西来? 眼下重新去链服务器不大方便,李飞飞便说“你直接截个图发我吧。” “嘟...” 那边直接挂了,李飞飞微微颦眉,这小子今天是怎么了,平时不是这么毛毛躁躁的。 很快,两张图片传了过来。 李飞飞依次点开,霎时间,瞳孔微微放大,呼吸也不自觉地突然急促了起来。 只见两个榜单最上面的一行都是同一个队伍。 队名:dream。 提交描述只有一个字母不同:“asingledreamnet.”和“asingledreamdet.” 在一群集成了多个模型的提交中,single(单个的)一词显得格外惹眼。