网络安全|深度学习也能不玩大数据？小企业训练大模型有新解网络安全

【网络安全|深度学习也能不玩大数据？小企业训练大模型有新解】

文章图片

编译 | 赵迪
编辑 | 云鹏
智东西2月10日消息，据外媒报道， AI领域专家吴恩达向IEEE表示深度学习未来的发展路径应当从用大数据训练模型向用优质数据转变，为无法获得大数据集的产业提供应用深度学习模型的机会。吴恩达曾任斯坦福人工智能实验室主任，此前主导谷歌的Google Brain项目。
吴恩达认为，对深度模型的训练应当从调整代码转向调整数据，通过调整影响训练结果的噪声数据（无意义数据），仅用少量优质的数据集即可完成模型更新，相较调整代码或直接提供海量数据的方式，这种方法更具针对性。
吴恩达2017年成立的Landing AI公司目前在为制造业产品检测方面提供计算机视觉工具，该工具能够对噪声数据进行快速标记，使客户通过更改数据标签自主完成模型的更新，不需要再对模型本身进行调整。
一、深度学习潜力强大，大数据训练集成主流人工智能的目标是让机器像人类一样“思考”和“行动” ，机器学习是是实现这一愿景的重要方法，深度学习则是机器学习的重要分支，随着2012年Hinton教授用机器学习方法在ImageNet图像识别比赛中一举夺魁，深度学习逐渐受到广泛关注，在许多领域替代了传统的机器学习方法，成为人工智能中的热门研究领域。
过去十年里，深度学习实现了飞速发展，深度学习模型向着越来越大的方向发展，以OpenAI的自然语言处理模型GPT系列模型为例， 2018年， GPT-1的参数规模突破1亿，到2020年GPT-3问世时时，参数规模已经突破百亿，超大模型的不断涌现，显示了深度学习的发展潜力。

但是，吴恩达认为，虽然目前深度学习方法在许多面向消费者的公司里实现了广泛应用，但是这些公司往往拥有庞大的用户基础，能获得大型数据集进行模型训练，但对于许多不能获得大型数据集的行业，则需要将重点从提供大量数据转向提供优质数据。
二、从代码转向数据，用少量数据训练优质模型过去十年中，训练深度学习模型的主流方法是下载数据集，然后专注于改进代码，但如果一个机器学习模型对于大多数数据集来说是正常的，仅在其中一个数据集中出现偏差，为了适应这个数据集改变整个模型架构的方法是低效的。
还有一种方法是从数据下手，这类方法被称为“Data-centric AI”（以数据为中心的人工智能），一般的方法是通过补充更多数据提升模型的准确性。对此，吴恩达表示，如果试图为所有情况收集更多数据，这个工作量将会很大，因此他致力开发出标记噪声数据（无意义数据）的工具，提供一种针对性的方法，为模型训练提供少量但优质的数据。
吴恩达说他一般采用的方法是数据增强或提高数据标签的一致性等，比如对一个存有一万张图片的数据集，其中30张同类图片有不同的数据标记时，他希望能够构建识别标记不一致的图片的工具，使研究人员能快速对其重新标记，而不是再搜集海量数据进行模型训练。
三、Landing AI提供数据标记工具，用户自主实现模型更新2017年，吴恩达成立了Landing AI公司，为制造业公司提供产品检测的计算机视觉工具，为生产商的产品进行视觉检测。吴恩达在该公司的首页介绍道，用人眼发现电路板划痕超出了人眼观测能力的极限，但用AI进行识别的准确率就高得多。

网络安全|深度学习也能不玩大数据？小企业训练大模型有新解

相关经验推荐

一加科技|5000元旗舰开启混战模式，小米，一加，荣耀，iQOO到底该怎么选？

acgn漫评|如果没有戈薇等人的出现，犬夜叉会变成什么样？

自从S3全球总决赛开始之后|S赛连续8年上单都是LCK选手？圣枪哥打破魔咒，国产中单要努力了

罪魁祸首|非人哉十一月变得中二，九月是罪魁祸首九月黑历史一点都不想提

快乐小孩歌词快乐小孩歌词写作背景意义

永劫无间官方赛事锦鲤杯总决赛已经正式打响|永劫无间总决赛不公平？虎牙Ly掉线直接崩溃，硬实力斩获亚军！

水的电导率是什么意思

小学生正确拿笔姿势

脸部|我的黑猫不可能这么可爱！16五更琉璃动漫娃娃品玩心得分享

许愿屋有哪些奖品王者荣耀4月8日更新后许愿屋值得抽吗

嫩豆腐汤的做法嫩豆腐汤做法步骤介绍

有名小吃的做法传统小吃的做法

大蛇|一拳超人：饿狼一共突破了五次限制器，他分别得到了多少提升？

华为|一反常态！华为宣布两大决定，外媒：果然不一般

狮子座本周运势女生金牛座今日运势科技紫微星，紫微科技金牛座今天的运势

怎么种苋菜怎么种苋菜不容易老

昆明在中国的哪个方向

手办|“熊孩子”摔坏百万手办，不仅不道歉还表示吓到自己的孩子了

可爱的小熊猫怎么画

湿疹怎么引起的