使用Kaggle的步骤

我在参与新类型Kaggle竞赛时采用的步骤如下，在赛程一半的时候进入（很多图像类竞赛没办法用Kernel跑完，可以在Discussion里找github上的代码，或者直接上github搜baseline代码，用谷歌搜比赛名也会出来不少github代码）。

仔细阅读Overview和Data中的内容。
下载数据后，对Kernels分数排序，优先查看分数高的和票数高的，如果某个Kernel是fork别人的，先看源头，选择几个采用不同方法的代码复制下来跑，感受下运行时间和效果。
按照方法名称搜原理，基本看懂这个方法的用途、优缺点、有哪些参数影响较大。
查看该方法的文档，对照着手上的代码看懂，然后把文档看几遍，里面会有少量技巧和调参方法，然后搜一下他人对参数的理解。
手工调参，看时间和效果的变化（本地和提交的差距）。
查看Kernels中的EDA，增加对这些数据的感受，大概记一下数据的分布、范围、意义。
查看Kernels中fork别人然后改进的代码，找一下哪里的代码变了，分析一下为什么好，是否会过拟合。
尝试自己想一些预处理方法，或者是特征工程，看效果。
然后再手工调参，注意观察Discussion里大家的讨论，有时候会有一些灵感，也可以直接根据提示写代码执行。
在觉得排名还可以时，可以使用多折平均，分数一般都会好一些，而且减少过拟合的概率。
调参可以使用Grid或者Bayesian Optimization。
使用不同方法得到相似分数的结果进行平均，通常分数可以高一截。
尝试stacking，方式很多，有时会过拟合，处理得好可以提高非常多，融合多个方法，多层stacking。
手工平均可以根据验证集的分数选择合适的权重，也可以根据测试集分数选择权重。注意在选择哪些结果进行平均时，可以计算一下相关系数corr，选择相关系数小并且在测试集表现不错的结果进行平均。
有些情况下伪标签效果不错。
选择最终的两个提交很重要，如果测试数据非常多，分布也很均匀（比如正例只有1％就是不均匀），基本上可以尽情过拟合。根据一定逻辑进行后处理风险很大。小测试数据对stacking很敏感，不过直接平均的方法在小数据上一般都还行。
可以看到这里用的很多方法，在工作环境中是没有的，我猜测优化单模型是主流，而且我在参与过程中花时间最多的也是优化单模型，融合水平很低。如何根据Kaggle中学到的知识解决实际问题，是我非常想知道的。

添加新评论

最新文章

最近回复

分类

归档