据机器之心报道,在众多开源项目中脱颖而出,OpenAssistant 有两把刷子。
事实证明,将大型语言模型 (LLM) 与人类偏好保持一致可以显著提高可用性,这类模型往往会被快速采用,如 ChatGPT 所证明的那样。监督微调 (SFT) 和基于人类反馈的强化学习 (RLHF) 等对齐技术大大减少了有效利用 LLM 功能所需的技能和领域知识,从而提高了它们在各个领域的可访问性和实用性。
然而,像 RLHF 这样最先进的对齐技术依赖于高质量的人工反馈数据,这些数据的创建成本很高,而且通常仍然是专有的。
为了使大规模对齐研究民主化,来自 LAION AI 等机构(Stable diffusion 使用的开源数据就是该机构提供的。)的研究者收集了大量基于文本的输入和反馈,创建了一个专门训练语言模型或其他 AI 应用的多样化和独特数据集 OpenAssistant Conversations。
该数据集是一个由人工生成、人工注释的助理式对话语料库,覆盖了广泛的主题和写作风格,由 161443 条消息组成,分布在 66497 个会话树中,使用 35 种不同的语言。该语料库是全球众包工作的产物,涉及超过 13500 名志愿者。对于任何希望创建 SOTA 指令模型的开发者而言,它都是一个非常宝贵的工具。并且任何人都可以免费访问整个数据集。
此外,为了证明 OpenAssistant Conversations 数据集的有效性,该研究还提出了一个基于聊天的助手 OpenAssistant,其可以理解任务、与第三方系统交互、动态检索信息。可以说这是第一个在人类数据上进行训练的完全开源的大规模指令微调模型。
结果显示,OpenAssistant 的回复比 GPT-3.5-turbo (ChatGPT) 更受欢迎。
- 论文地址:https://drive.google.com/file/d/10iR5hKwFqAKhL3umx8muOWSRm7hs5FqX/view
- 项目地址:https://github.com/LAION-AI/Open-Assistant
- 数据集地址:https://huggingface.co/datasets/OpenAssistant/oasst1
- 体验地址:https://open-assistant.io/chat
版权声明:除特殊说明外,本站所有文章均为 字节点击 原创内容,采用 BY-NC-SA 知识共享协议。原文链接:https://byteclicks.com/48455.html 转载时请以链接形式标明本文地址。转载本站内容不得用于任何商业目的。本站转载内容版权归原作者所有,文章内容仅代表作者独立观点,不代表字节点击立场。报道中出现的商标、图像版权及专利和其他版权所有的信息属于其合法持有人,只供传递信息之用,非商务用途。如有侵权,请联系 gavin@byteclicks.com。我们将协调给予处理。
赞