语言理解和生成任务
GoogleAI在广泛使用的英语自然语言处理(NLP)任务上评估了PaLM 。 PaLM完成了完形填空、句子补充、Winograd风格、上下文阅读理解、常识推理、SuperGLUE和自然语言推理等共计29项任务 。
在29个基于英语的NLP任务上 , PaLM540B的性能比之前的最先进(SOTA)结果有所提高 。 除了英语NLP任务外 , PaLM在包括翻译在内的多语言NLP基准上也表现出强大的性能 , 尽管只有22%的训练语料库是非英语的 。
GoogleAI还在超越模仿游戏(BIG-bench)上探索了PaLM的新兴和未来功能 , 这是一个最近发布的包含150多个新语言建模的任务 , 这项任务更加体现了PaLM的突破性的能力 。 GoogleAI将PaLM与Gopher和Chinchilla的性能 , 在58个常见任务子集中进行平均比较 , 发现PaLM的性能改进还尚未达到稳定状态 。
PaLM在超越模仿游戏(BIG-bench)任务中展示了令人印象深刻的自然语言理解和生成能力 。 例如 , 该模型可以区分因果关系 , 理解上下文中的组合概念 , 甚至可以从表情符号中猜测电影 。
PaLM540B在BIG-bench任务上1-shot性能示例:标记因果关系、概念理解、从表情符号中猜测电影以及查找同义词和反义词 。
推理任务
通过将模型规模与思维链提示相结合 , PaLM在需要多步算术或常识推理的任务上显示出突破性的能力 。 传统的LLM , 如Gopher , 在提高性能方面从模型规模中获益较少 。
GoogleAI在三个算术数据集和两个常识推理数据集上观察到PaLM的强大性能 。 例如 , 通过8-shot提示 , PaLM解决了GSM8K中58%的问题(GSM8K是一个包含7500个具有挑战性的小学级别数学问题集合) , 这项能力超过了之前通过微调的GPT-3模型55%的最高分 。
这个新分数特别有趣 , 因为它接近9-12岁儿童解决问题的能力 , GoogleAI认为PaLM词汇表中的数字单独编码有助于实现性能改进 。
值得注意的是 , PaLM甚至可以完成多步逻辑推理、世界知识和深度语言理解等复杂问题组合 , 并生成明确解释 。 例如 , 它可以为网络上还尚未出现的新笑话提供高质量的解释 。
代码生成任务
传统LLM已经证明[1234
可以很好地推广到编码任务 , 例如在给定自然语言描述(文本到代码)的情况下编写代码 , 将代码从一种语言翻译成另一种语言 , 以及修复编译错误(代码到代码) 。
PaLM即使在预训练数据集中只有5%的代码 , 也能在单个模型中的编码任务和自然语言任务中表现出强大的性能 。 PaLM的few-shot性能特别显着 , 与经过微调的Codex12B相当 , 同时训练时使用的Python代码少了将近50倍 。 这一结果强化了早期的发现 , 即较大的模型比较小的模型更能提高样本效率 , 因为较大的模型能更有效地从其他编程语言和自然语言数据中转移学习 。
文本到代码任务(例如GSM8K-Python和HumanEval)和代码到代码任务(例如Transcoder)上的微调PaLM540B模型示例 。
通过在纯Python代码数据集上微调PaLM进一步提高了性能 , GoogleAI将其称为PaLM-Coder 。 对于一个名为DeepFix的示例代码修复任务 , 其目标是修改最初损坏的C程序直到编译成功 , PaLM-Coder展示了令人印象深刻的性能 , 实现了82.1%的编译率 , 优于之前71.7%的最高纪录 , 这为修复软件开发过程中出现的复杂错误提供了机会 。
DeepFix代码修复任务的示例 , 经过微调的PaLM-Coder540B将编译错误(左 , 红色)修复为可编译的代码版本(右) 。
伦理考虑最近的研究强调了LLM相关的各种潜在风险 , 通过模型卡和数据表等透明分析组件和记录此类潜在的不良风险至关重要 , 包括有关预期用途和测试的信息 。 为此 , GoogleAI的论文中提供了数据表、模型卡和AI基准测试结果 , 并对数据集和模型的输出进行了全面的分析报告 , 以发现偏差和风险 。 虽然分析有助于描述模型的一些潜在风险 , 但特定领域的任务分析对于真正校准、情境化和减轻可能的危害至关重要 。 进一步了解这些模型的风险和收益以及同时开发可行的解决方案防止恶意使用语言模型是下步研究的重点 。
相关经验推荐
- 小米科技|小米12ultra配置参数曝光,下月推出,安卓之光降价让路了
- 小米科技|小米首款新形态笔记本曝光:要打微软Surface了
- 小米科技|雷军:8720mAh大电池平板,6+256G、8+256G通通降价
- 小米科技|618买小米手机,这3款千万不要错过,其中一款旗舰机已下跌2000元
- 一加科技|一加新旗舰曝光:外形设计感觉丑出天际,并非一加10 Ultra
- 小米科技|小米13系列曝光,2K+大屏或将回归
- 小米科技|小米机皇清仓了,四曲面屏+双67W快充+50MP三摄,顶配版价格良心
- 小米科技|刚发现,华为手机智慧识屏功能太强大!用过都说好,学会很方便
- 小米科技|步入6月份,多款旗舰手机“喜迎”大降价,你准备捡漏了吗?
- 小米科技|小米5款旗舰新机完成入网工作 天玑版小米12S Pro或标配67W充电器