剑桥计算机博士推荐,毕业之前,我需要掌握这9个工具( 二 )
文章图片
Conda教程:https://conda.io/projects/conda/en/latest/user-guide/getting-started.html#starting-conda
运行、跟踪和记录实验工具
在应用领域想要获得博士学位 , 严谨性和一致性是两个基本支柱 。 假如你是研究机器学习模型的 , 或多或少都能遇到这种情况——你创建了许多不同的模型来试验不同的参数甚至整个架构 。 你还想尝试优化器的选择、学习率、时期数等 。 因此 , 实际上 , 你将进行许多不同的实验 , 并且将越来越难以整理结果 。 在这一方面 , AliakseiMikhailiuk向我们展示了如何正确方便地管理和记录自己的ML和DL实验工具 , 主要推荐了Weights&Biases , MLFlow , Screen工具 。
Weights&Biases
文章图片
wandbpanel一组简单指标Snapshot——训练损失、学习率和平均验证损失 。 请注意 , 你还可以跟踪系统参数 。
W&B(Weights&Biases)是一个平台 , 可以帮助数据科学家跟踪他们的模型、数据集、系统信息等 。 只需几行代码 , 用户就可以开始跟踪有关这些功能的所有内容 。 它免费供个人使用 , 团队使用通常需要付费 , 但用于学术目的的团队是免费的 。 你可以将W&B与自己喜欢的框架一起使用 , 例如TensorFlow、Keras、PyTorch、SKlearn、fastai等 。
W&B提供了以下4个有用的工具:
Dashboard:实验跟踪;
Artifacts:数据集版本控制、模型版本控制;
Sweeps:超参数优化;
Reports保存和共享可重现的结果 。
W&B教程:https://docs.wandb.ai/quickstart
MLFlow
MLFlow是一个能够覆盖机器学习全流程(从数据准备到模型训练到最终部署)的新平台 , 它是一款管理机器学习工作流程的工具 , 主要有三个功能模块:Tracking跟踪和记录、Project项目管理和Models模型管理 。 MLflow支持Java、Python、R和RESTAPI等 。
文章图片
MLFlow具有以下主要组件:
跟踪:用于跟踪试验 , 以记录和比较参数与结果;
模型:用于通过各种ML库管理模型 , 并将其部署到各种模型服务和推理平台;
项目:用于将ML代码打包成可重用、可再现的格式 , 以便与其他数据科学家共享或转移到生产环境;
模型注册表:使你可以将模型存储集中化 , 以便使用版本控制和批注功能来管理模型的完整生命周期阶段转换;
模型服务:可用于将MLflow模型以REST终结点的形式托管 。
MLFlow教程:https://www.mlflow.org/docs/latest/tutorials-and-examples/tutorial.html
Screen
对于每个研究者来说 , 让实验通宵运行而且机器不会进入休眠状态再好不过了 。 当进行远程工作时 , 很多人都会担心ssh会话中断——代码运行几个小时就停止了 。
screen命令允许用户在一个窗口内使用多个终端会话 , 可以断开连接 , 也可以重新连接已断开连接的会话 。 每个会话都可以恢复连接 , 这样就算会话断开了 , 用户也不必担心数据丢失 。
Screen教程:https://www.geeksforgeeks.org/screen-command-in-linux-with-examples/
协作工具
学术界缺乏有效的团队管理机制 , 在某种程度上这是由于学术界会严格划分个人贡献造成的 。 然而 , 机器学习的发展速度需要大家共同努力 。 Mikhailiuk推荐了两个非常基本的工具:GitHub以及Lucidchart , 它们对于有效的沟通非常方便 , 尤其是在远程工作上 。
GitHub
GitHub是通过Git进行版本控制的软件源代码托管服务平台 , 同时提供付费账户和免费账户 , 这两种账户都可以创建公开或私有的代码仓库 , 但付费用户支持更多功能 。 除了允许个人和组织创建和访问保管中的代码以外 , 它也提供了一些方便社会化共同软件开发的功能 , 包括允许用户追踪其他用户、组织、软件库的动态 , 对软件代码的改动和bug提出评论等 。 GitHub也提供图表功能 , 用于概观显示开发者们怎样在代码库上工作以及软件的开发活跃程度 。
- 中小企业|海纳百川,顺势而为!鹏博士副总裁李炜解读云计算战略2.0
- 武大|华为“天才少年”出炉,年薪最高者达201万,还有武大94年博士生
- 锐龙|任正非:量子计算机出现后,比特币一文不值
- 华人女博士提出高效NAS算法:AutoML一次「训练」适配亿万硬件
- 计算器|江苏美女博士走红,回国打破外国芯片垄断,这才是我们的“明星”
- 开年看项目|2022年紫光计算机计划推20余款新品,研发实验室二期投入建设| 实验室
- 全球5G商用网络已达200张;2021年全球PC出货3.41亿台|喵博士资讯 | 中国电信
- 盲盒|web,网络安全——计算机网络通关29讲笔记
- ecc|OnLogic 推出基于第 12 代英特尔 Alder Lake 的坚固型工业计算机
- 智能汽车|华为签约第20位“天才少年”:绩点1.8逆袭成复旦博士