• 翰林提供学术活动、国际课程、科研项目一站式留学背景提升服务!

Kaggle数据科学竞赛——全年滚动报名

Kaggle是一个全球知名的数据科学学术活动在线平台。由Anthony Goldbloom和Ben Hamner创立于2010年,是一个进行数据发掘和预测学术活动的在线平台,也是全球最大的数据科学社区和数据科学学术活动平台,2017年被Google收购。从公司的角度来讲,可以提供一些数据,进而提出一个实际需要解决的问题;从参赛者的角度来讲,他们将组队参与项目,针对其中一个问题提出解决方案,最终由公司选出的最佳方案可以获得5K-10K美金的奖金。

Kaggle以数据挖掘起家,为了快速高效的解决最棘手的问题,该平台发布了众多数据科学、机器学习相关的学术活动。Kaggle的多数学术活动由企业或者研究机构发布,以学术活动奖励的方式向全球征集解决方案,通过众包的方式解决建模问题,诸如Google、Facebook、Microsoft等知名科技公司均在Kaggle上举办过数据挖掘比赛。除此之外,Kaggle官方每年还会举办一次大规模的学术活动,奖金高达一百万美金,吸引了广大的数据科学爱好者参与其中。但是不同于传统的低层次劳动力需求,Kaggle一直致力于解决业界难题,因此也创造了一种全新的劳动力市场——不再以学历和工作经验作为唯一的人才评判标准,而是着眼于个人技能,为顶尖人才和公司之间搭建了一座桥梁。

点击报名Kaggle获取资料

参赛须知

参赛时间

全年滚动,随时可以报名

适合人群

高中生/计算机背景的大学生

参赛语言

比赛全英文,可以练习英语

竞赛类型

其难度从初学到高阶以及求职均有涉及,最常见的竞赛可以划分为以下类型

Featured

特色

Research

研究

Getting Started

入门比赛

Playground

游乐场比赛

InClass

类别/职业

Analytics

分析

竞赛流程

可以以个人或组队的形式参加比赛,在参赛时可以相互分享经验

01注册账号(一人只能有一个账号)

02选择想要参赛的项目

03下载题目的数据

04时间截止,评出最优者

05获奖的队伍必须提交源代码

直观地展现你的数据分析能力

Kaggle-全球知名的数据科学竞赛在线平台

一段带奖金高难度的Kaggle比赛的 Prize Winner经历并不会比一段互联网大厂数据分析实习经历逊色,大大提高你的录取概率。

竞赛要求

编程语言

最基础的入门学者也需要学会初步使用一门编程语言。对于毫无基础的新手,推荐使用Python,因为Python作为一种强大的胶水语言,可迅速入门。

探索数据

光有编程语言是不够的,还需要学习如何探索性分析你手上的数据,这是进入数据科学的第一步。因为通常到手的数据都多到不可思议,你要学会取舍和迅速获取最有用的信息。

模型训练

熟悉使用机器学习库,培养良好的习惯,为之后的工作做铺垫实战,从初级可以逐渐增加难度。

比赛形式

Simple Competitions:

遵循标准 Kaggle 格式的比赛。在简单的比赛中,用户在接受比赛规则后,可以在比赛开始时访问完整的数据集。作为竞争对手,您将下载数据,在本地或笔记本中构建模型,生成预测文件,然后将您的预测作为提交上传到 Kaggle。到目前为止,Kaggle 上的大多数比赛都遵循这种格式。

Two-stage:

分为第一阶段和第二阶段,第二阶段建立在团队在第 1 阶段取得的成绩的基础上。第 2 阶段涉及在阶段开始时发布的新测试数据集。第 2 阶段的资格通常需要在第 1 阶段提交。在两个阶段的比赛中,阅读和理解比赛的具体规则和时间表尤为重要。

Code Competitions:

在这些比赛中,所有提交都是在 Kaggle 笔记本内部提交的,并且无法直接将提交上传到比赛。

这些比赛有两个吸引人的特点。竞争更加平衡,因为所有用户都有相同的硬件限额。获胜模型往往比其他比赛中的获胜模型简单得多,因为它们必须在平台施加的计算限制内运行。对您可以提交的笔记本配置了自己独特的约束。这些可能受到以下特征的限制:CPU 或 GPU 运行时、使用外部数据的能力以及对 Internet 的访问。要了解您必须遵守的限制,请查看该特定比赛的要求。

Kaggle新手推荐比赛

<strong>Titanic - Machine Learning from Disaster</strong>

Titanic - Machine Learning from Disaster

这是传奇的Titanic ML比赛——对你来说是深入ML比赛并熟悉Kaggle平台如何工作的最好的第一个挑战。
比赛很简单:使用机器学习来创建一个模型,预测哪些乘客在泰坦尼克号沉船中幸存下来。

<strong>House Prices - Advanced Regression Techniques</strong>

House Prices - Advanced Regression Techniques

在爱荷华州艾姆斯市,有79个解释变量(几乎)描述了住宅住宅的每个方面,这项竞赛要求你预测每个住宅的最终价格。
你的工作是预测每栋房子的销售价格。对于测试集中的每个 ID,必须预测 SalePrice 变量的值。

<strong>Spaceship Titanic</strong>

Spaceship Titanic

欢迎来到2912年,这里需要你的数据科学技能来解决一个宇宙之谜。我们收到了来自四光年外的信号情况不妙。
为了帮助救援人员并找回失踪的乘客,你面临的挑战是利用从飞船受损的计算机系统中恢复的记录来预测哪些乘客被异常运送。

赛题示例

Allstate索赔预测挑战 - 使用客户的购物历史记录来预测他们购买的保险单

有害评论分类挑战 - 预测维基百科上有害评论的存在和类型

Zillow奖 - 构建一个机器学习算法,可以挑战Zesow,Zillow房地产价格估算算法

谷歌地标检索挑战 - 如果有图像,您能在数据集中找到所有相同的地标吗?

右鲸识别 - 识别航空照片中濒临灭绝的露脊鲸

大规模分层文本分类 - 将维基百科文档分类为约300,000个类别之一

泰坦尼克号:从灾难中进行机器学习,预测泰坦尼克号的生存几率

房价预测:回归方法

猫与狗:创建一种算法去区分猫与狗

纽约出租车行程持续时间:通过数据改善乘车时间预测

我要报名赛事辅导咨询

含金量

助力名校申请 直观展现数据分析能力

学界认可度高 成为教学实践平台

科技巨头在Kaggle办竞赛招聘人才

奖项设置

kaggle的评价体系 kaggle的用户评价体系是基于三个维度的:学术活动、代码以及社区参与

官方讨论论坛

Kaggle 论坛

新 Kagglers 提问和讨论的第一站

入门

新 Kagglers 提问和讨论的第一站

产品反馈

告诉我们您喜欢什么、讨厌什么或希望什么

问题与解答

来自其他数据科学家的技术建议

数据集

对开放数据的请求和讨论

学习

Kaggle Learn课程相关问题答案请求

新闻资讯

kaggle竞赛含金量高吗?kaggle竞赛时间是什么时候?

Kaggle是计算机科学领域中最知名的学术活动之一,为学习计算机科学的人提供了一个绝佳的平台。如果你在计算机科学领域从未听说过Kaggle,就好比在学习数学专业的过程中从未听说过AMC,简直难以置信。 Kaggle学术活动具有许多优势,例如...
More

零门槛的Kaggle人工智能挑战赛报名中 高中生为什么要参加 Kaggle?

在人工智能盛行的时代,STEM(科学、技术、工程和数学)已经成为最受瞩目的学科领域。作为人工智能的核心学科,计算机领域成为了众多留学生争相涌入的申请赛道。虽然STEM领域有很多学术活动活动,但专注于人工智能的细分学术活动却相对较少。然而,备...
More

想冲击名校CS专业 Kaggle人工智能竞赛全年可参与

在这个信息技术爆炸的时代,理工高中生需要掌握许多关键技能。其中一个非常重要的技能就是数据能力。随着人工智能和机器学习的不断发展,这些前沿科技离不开大数据的支持。无论是AI机器学习训练,还是生物、物理、医学等STEM领域的突破,都需要大量的数...
More

kaggle竞赛含金量高吗?Kaggle竞赛冲奖必知

Kaggle是一个全球知名的数据科学学术活动平台,也是当今最大的数据科学家和机器学习开发者社区之一。成立于2010年,Kaggle致力于举办在线数据科学学术活动,为数据科学领域的专业人士提供了一个交流与学习的平台。 由于Kaggle学术活动...
More

Kaggle数据科学竞赛——常见问题

1、参赛者背景如何?

从比赛目标出发,参赛者主要分为2种:

① 一种是以奖金和排名为目的,包括靠奖金为生的职业Kaggler;

② 另外一种就是以提升相关skills和背景为目的业余爱好者甚至在校学生了。从背景来看,前者的来源主要有丰富data science、data mining、machine learning工作经验的业内人士,或者是实力强劲的民间“技术宅”;而后者则往往是一些有一定技术能力,但经验欠缺,从中进行学习和锻炼的“长江后浪”。

2、在比赛中获胜或者拿到好的排名难吗?

在Kaggle比赛中,赢得一个奖项甚至赢得一个好位置的难度非常高,通常有数千人参与一个项目,只有Top1才能获得奖金,可以说是高手中的高手。

一般来说,几个人在行业内有一定水平在临时组团的情况下最多能拿到20个左右的排名成绩,排名还想要往前走就需要有一定的默契和合作经验。

我在哪里可以获得我的比赛数据集?

我们建议您使用自己的数据,因为通常最好使用参与者无法访问的数据(以尽量减少作弊的诱惑)。

但是,如果你不介意参与者完全可以访问它(例如纯粹的教育竞赛),可以考虑浏览Kaggle的数据集平台。它拥有数千个公共数据集,并拥有丰富的搜索和过滤工具,可以帮助您找到适合您需求的内容。每个数据集都应该包含一个数据使用许可,这将表明您是否可以将其用于您的竞争。

我收到(一个错误),我该如何解决?

从阅读本安装指南开始。如果你仍然不能解决这个问题,试着在Kaggle论坛上询问其他社区竞赛的主持人。

我想再次参加同样的比赛。我需要从头开始吗?

现在,你还不能复制过去的比赛。您需要从头开始安装。

谁能看到我的比赛?

这取决于您选择的隐私设置。Kaggle有2个隐私设置-公共和有限。公开意味着你的竞争对手会在kaggle.com上被列出和发现。有限的意思是只有提供URL的人才可以观看和参加比赛。

我在哪里可以找到邀请链接?

如果你选择了“公开”,你可以在你的浏览器标签上分享你的比赛——任何人都可以看到比赛。如果您的比赛设置为有限隐私,请访问您的比赛>主机>隐私>共享URL(如果您选择了有限)。

Kaggle禁止作弊

在Kaggle上,作弊是不会被轻视的。我们会在比赛期间监控我们的合规账户(举报作弊者或因作弊行为提起移除请求的正式渠道)。我们还会在每场比赛结束时花大量时间审查可疑活动,并将违反规则的人从排行榜上删除。当我们认为我们有足够的证据时,我们会通过删除甚至可能封禁帐户来采取行动。

我们还会在一周内监控和调查审核报告(抄袭、投票圈等),并采取适当的行动,包括移除奖牌和完全屏蔽账户。

如果您认为您有证据表明某个队伍违反了竞赛规则,请将其报告给竞赛合规账户,以便进行彻底调查。

点击报名Kaggle获取资料
项目咨询 项目咨询
了解背提项目
了解课程 了解课程
了解课程
微信咨询 微信咨询
微信咨询