Meta已经开始尝试改变现状:2022年5月 , 该公司发布了自己的大型语言模型 , 开放式预训练Transformer(OPT-175B) , 以及模型的代码和详细说明该模型如何训练的日志 。
但使用Meta的模型需要提交申请 , 而且它的许可限制了其用于研究目的 。 HuggingFace在开放程度上更进一步 , 详细介绍其过去一年工作的会议记录被上传到网上 , 任何人都可以免费下载该模型 , 并用于研究或构建商业应用程序 。
BigScience项目的一个重点是从一开始就将伦理纳入考量 , 而不是模型完成之后再考虑 。 大型语言模型使用从互联网收集到的大量数据进行训练 。 这可能带来问题 , 因为这些数据集包含了大量的个人信息 , 而且经常展现出危险的偏见 。
研究人员专门为大型语言模型开发了数据治理结构 , 这使它更清楚正在使用的数据的类型和来源 , 它的数据集来自世界各地 , 而且无法从网上轻易获得 。
该组织还公布了“负责任的人工智能许可”这一全新概念 。 它类似于服务条款协议 , 目的是防止执法或卫生保健等高风险部门使用其技术伤害、欺骗、剥削或冒充公众 。
参与该项目并创建了该许可的人工智能研究员丹尼希·康楚科特(DanishContractor)表示 , 该许可是在法律完备之前的自我约束性实验 。 但归根结底 , 没有什么能阻止任何人滥用BLOOM 。
这个项目从一开始就有专属的伦理指导原则 。
HuggingFace的伦理学家贾达·皮斯蒂利(GiadaPistilli)起草了BLOOM的伦理准则 , 作为模型开发的原则 。
例如 , 它强调了从不同的背景和地点招募志愿者 , 确保普通人能够轻松地重现该项目的研究结果 , 还有公开公布其研究结果 。
【bloom|参数高达1760亿个,1000多名学者联合研发大型语言模型BLOOM】一同出发
这一系列指导原则使BLOOM和今天其他可用大型语言模型存在的一个主要区别:该模型可以理解多达46种人类语言 , 包括法语、越南语、普通话、印度尼西亚语、加泰罗尼亚语、13种印度语言(如印地语)和20种非洲语言 。 超过30%的训练数据是英文的 。 该模型还可以理解13种编程语言 。
这在英语占主导地位的大型语言模型世界中是非常不寻常的 。 这是通过互联网抓取数据而建立模型的另一个结果:英语是互联网上最常用的语言 。
BLOOM能够改善这种情况的原因是 , 该团队召集了来自世界各地的志愿者 , 用其他语言构建合适的数据集 , 即使这些语言在互联网上十分小众 。
HuggingFace的实习研究员克里斯·易麦吉(ChrisEmezue)表示 , 该组织会发起研讨会并与非洲人工智能研究人员搜寻数据集 , 如从地方当局或大学寻找用于训练非洲语言模型的记录 。
容纳如此多不同的语言可能对贫穷国家的人工智能研究人员有巨大帮助 , 因为他们通常很难获得自然语言处理渠道 , 因为要使用大量昂贵的算力 。
允许他们跳过开发和训练模型的昂贵部分 , 以便专注于构建应用程序和为其母语语言微调模型 。
“如果你想把非洲语言纳入未来的自然语言处理过程中……在训练语言模型时加入它们是一个非常好的和重要的步骤 , ”克里斯表示 。
小心操作
斯坦福大学研究中心负责基础模型的研究中心主任佩西·梁(PercyLiang)表示 , BigScience在建立社区建设方面做的工作是“非凡的” , 它从一开始就考虑伦理和治理的方法是经过深思熟虑的 。
然而 , Liang并不认为这会让大型语言模型的开发发生重大变化 。 “OpenAI、谷歌和微软仍遥遥领先 , ”他说 。
最终 , BLOOM仍然是一个大型语言模型 , 因此它仍然伴随着所有相关的缺陷和风险 。 像OpenAI这样的公司还没有向公众发布他们的模型或代码 , 因为他们认为 , 掺杂其中的性别歧视和种族主义语言让模型变得不适合公开 。
相关经验推荐
- 红米手机|红米K60遭曝光:关键性参数基本确认,感觉红米K50不香了
- 努比亚|努比亚Z40SPro即将发布,参数配置已悉数曝光,一个字“稳”
- 安卓|安卓阵营堆相机参数,苹果仍1200W像素,噱头还是实力派一测便知
- 华为鸿蒙系统|这颜值和配置如何?魅族19外观和参数提前曝光,魅友们很满意
- 空调|一代“彩电大王”落幕:年营收曾高达30亿,做过手机、卖过猪肉
- 折叠屏|国内折叠屏手机榜单更新:三星排名第二,榜首市场份额高达52%
- 华为|华为人均工资高达70万,但先看看华为员工的16项标准
- 荣耀70|“参数党”表示看不懂,荣耀70是有多超常识?
- 微信|CPU占用率高达156% 网友吐槽:微信到底想干啥
- 芯片|iQOO10系列曝光配置参数汇总,骁龙8+搭配V1+芯片,性能天花板?