42. AutoML 完成手写字符分类#

42.1. 介绍#

本次挑战重点在于自动化机器学习应用,你需要利用 auto-sklearn 框架,完成 MNIST 手写字符分类。

42.2. 知识点#

  • MNIST 手写字符分类

  • auto-sklearn 框架应用

42.3. 数据集介绍#

Digit Recognizer 是 Kaggle 上一个机器学习入门级比赛,该比赛利用 MNIST 手写字符数据集完成分类任务。MNIST 和实验中用过的 DIGITS 数据集很相似,都是手写字符。但 MNIST 样本的尺寸更大,数量也更多。

https://cdn.huhuhang.com/hands-on-ai/images/uid214893-20190701-1561970114689.png

Exercise 42.1

挑战:请阅读 Digit Recognizer 比赛说明,并使用 auto-sklearn 完成该比赛,最后尝试通过 Kaggle 提交获取排名成绩。

提示:Kaggle 网站可以在大陆正常访问,但注册过程可能需要「科学上网」环境。

你可以下载数据集在本地完成,也可以使用 Kaggle 提供的 Kaggle Notebooks 环境在线完成【推荐】。最后,通过比赛页面的右上角的 Submission Predictions 提交挑战结果后即可看到排名信息。

https://cdn.huhuhang.com/hands-on-ai/images/uid214893-20190701-1561970353802.png

本地完成时,数据集镜像下载地址:

https://cdn.huhuhang.com/hands-on-ai/files/digit-recognizer.zip  # 复制链接粘贴到浏览器下载

数据集包含 3 个文件,释义如下:

├── sample_submission.csv  # 预测数据提交示例格式
├── test.csv  # 比赛需预测数据集
└── train.csv  # 比赛用训练数据集

最终,你可以在 Leaderboard 栏中看到排名情况。

Note

大家务必亲自动手在线下完成本次开放式挑战。课程后续的项目挑战比赛,同样会使用 Kaggle 完成,本次挑战不仅可以帮助你回顾 auto-sklearn 的用法,更重要在于提前熟悉 Kaggle 的使用。

相关链接