深度学习|组装足够的高质量数据,所需要的时间通常比编写深度学习解决方案还要多

深度学习|组装足够的高质量数据,所需要的时间通常比编写深度学习解决方案还要多

文章图片

深度学习|组装足够的高质量数据,所需要的时间通常比编写深度学习解决方案还要多

文章图片

深度学习|组装足够的高质量数据,所需要的时间通常比编写深度学习解决方案还要多

文章图片


训练数据对于深度学习的成功应用至关重要 , 这一要求是这种方法的主要缺点之一 。 根据经验 , 组装足够的高质量数据通常需要与编写深度学习解决方案一样多甚至更多的时间 。 强大的解决方案需要数据集来捕获分析过程中可能遇到的图像的多样性 。 这些数据集的注释需要尽可能地没有错误 , 因为可以学习错误 。 虽然训练数据可能有限 , 但计算方法可以从现有数据中提取最大效用 。 图像归一化减少了不同采集条件的变化 。



旋转、翻转和缩放等数据增强操作也可以增加有限数据集中的图像多样性;无论数据集大小或类型如何 , 这些操作通常都是标准做法 。 迁移学习是另一种使用有限数据创建稳健模型的方法 。 在迁移学习中 , 深度学习模型在大型数据集上进行训练以学习一般图像特征 , 然后在较小的数据集上进行微调以学习执行特定任务 。 虽然这些方法使性能良好的网络能够从有限的数据集中出现 , 但大型注释数据集会显着提高性能 。



对于某些用途 , 例如检测衍射极限点 , 可以生成具有已知注释的模拟图像 。 在其他策略中 , 传统计算机视觉管道的策划输出已被用作训练数据 。 训练数据也由专家使用众包是一种具有成本效益的大型数据集来源 , 广泛应用于自动驾驶等领域;现有工具正在适应生物图像工具具有用于在使用的生物图像注释的图形用户界面 , 工具也是如此 , 它使用主动学习来降低数据标记成本 。



游戏化也产生了一些非常有希望的结果 。 重要的是 , 社区承认支持深度学习算法的注释数据集应该是公开可用的 , 因为一组针对生物学问题的全面而广泛的训练数据将大大有助于深度学习算法的开发 。 一旦获得了训练数据 , 就可以训练深度学习模型来准确地对新数据进行预测 。 此任务有几个独特的软件和硬件要求 。 目前 , 尽管这些框架有重要的区别 , 但也有一些共同点 。

首先 , 它们都构建了一个计算图 , 概述了深度学习模型在将输入数据转换为最终输出时所做的所有计算 。 其次 , 它们都自动执行导数 , 这使它们能够执行中描述的优化 , 而无需用户在指定计算图后进行额外工作 。 第三 , 它们为图形处理单元和张量处理单元等专用硬件提供了一个简单的网关 。 由于深度学习模型通常包含数百万个参数 , 因此需要专门的硬件来快速执行这些计算 。

第四 , 这些框架都包含常见数学对象、优化算法、超参数设置和性能指标的实现——这意味着用户可以快速将深度学习应用于他们的数据 , 而无需自己重现这些实现 。 虽然线性分类器突出了训练的几个关键特征 , 但在实践中存在一些重要差异 。 已经开发了上面显示的损失函数的变体 , 以解决围绕数据集中类不平衡的问题 。 存在几种随机梯度下降的变体 , 最近的工作表明 , 用动量随机梯度下降训练的网络在泛化方面具有更好的性能 。

【深度学习|组装足够的高质量数据,所需要的时间通常比编写深度学习解决方案还要多】将学习率表示为一个静态参数 , 但实际上它通常会随着训练的进行而降低 。 重要的是 , 深度学习模型的数学结构比这里介绍的线性模型更复杂 。 虽然这种简化对于训练梯度的分析计算可能会出现问题 , 但所有深度学习模型都是可以组合的 。 允许迭代地使用链式法则来推导梯度的解析表达式 , 即使是复杂的函数 , 仍然需要编程来使这些框架适应细胞成像数据 , 它们大大降低了进入门槛 。

相关经验推荐