2024 年 8 大开源法学硕士项目及其用途
Posted: Mon Dec 02, 2024 10:16 am
使用开源法学硕士 (LLM) 的好处
选择开源 LLM 而不是专有 LLM 有多种短期和长期好处。下面列出了最令人信服的理由:
增强数据安全性和隐私性
使用专有法学硕士的最大担忧之一是数据泄露或法学硕士提供者未经授权访问敏感数据的风险。事实上,已经出现了一些关于将个人和机密数据用于培训目的的争议。
通过使用开源 LLM,公司将全权负责个人数据的保护,因为他们将完全控制它。
节省成本并减少对供应商的依赖
大多数专有 LLM 都需要许可证才能使用。从长远来看,这可能是一些公司(尤其是中小企业)无法承受的一笔重要开支。开源 LLM 则不是这样,因为它们通常可以免费使用。
然而,值得注意的是,运行 LLM 需要大量资源,即使仅用于推理,这意味着您通常必须为使用云服务或强大的基础设施付费。
代码透明性和语言模型定制
选择开源 LLM 的公司将能够了解 LLM 的工作原理,包括其源代码、架构、训练数据以及训练和推理机制。这种透明度是审查的第一步,也是定制的第一步。
由于开源 LLM(包括其源代码)可供所有人访问,因此使用它们的公司可以根据其特定用例对其进行定制。
积极的社区支持和促进创新
开源运动有望使 LLM 和生成式 AI 技术的使用 office 365 数据库 和访问变得民主化。允许开发人员检查 LLM 的内部工作原理是该技术未来发展的关键。通过降低全球程序员的准入门槛,开源 LLM 可以促进创新,并通过减少偏见、提高准确性和整体性能来改进模型。
解决人工智能的环境足迹
随着法学硕士的普及,研究人员和环保监督机构开始担心运行这些技术所需的碳足迹和水消耗。专有法学硕士很少发布有关培训和运营法学硕士所需资源的信息,也不会发布相关的环境足迹。
通过开源 LLM,研究人员有更多机会了解这些信息,这可以为旨在减少人工智能对环境影响的新改进打开大门。
2024 年 8 大顶级开源大型语言模型
1.LLaMA 3.1
法学硕士 (LLM) 领域的大多数顶尖企业都选择闭门修读法学硕士 (LLM)。然而,Meta 仍然是个例外,它推出了一系列开源法学硕士 (LLM),目前包括最新的LLaMA 3.1。
LLaMA 3.1 于 2024 年 7 月 23 日发布,包含具有 8B、70B 和首次 405B 参数的模型,是该系列中最大的模型。这些模型旨在处理多种语言的各种自然语言处理任务,包括英语、西班牙语、葡萄牙语、德语、泰语、法语、意大利语和印地语。
LLaMA 3.1 模型支持大幅增加的 128,000 个标记的上下文长度,这增强了它们处理和理解长文本的能力,从而显著提高复杂推理任务的性能并在较长的对话中保持上下文。
405B 模型尤其适用于生成合成数据,可用于训练其他模型,也可用于知识提炼,允许将来自这个大型模型的知识转移到更小、更高效的模型中。此功能为在资源受限的环境中部署高级 AI 开辟了新的可能性。
此外,LLaMA 3.1 继续利用人类反馈强化学习 (RLHF),确保模型符合人类对帮助性和安全性的偏好。
要了解有关 LLaMA 的更多信息,请查看我们的Meta AI 的 LLaMA 简介和我们的微调 LLaMA 3.1文章。
2. 布卢姆
图片6.png
BLOOM于 2022 年推出,是与来自 70 多个国家的志愿者和 Hugging Face 的研究人员进行为期一年的合作项目之后推出的,它是一门自回归法学硕士课程,使用工业规模的计算资源对大量文本数据进行训练,根据提示继续处理文本。
BLOOM 的发布标志着生成式 AI 民主化的重要里程碑。BLOOM 拥有 1760 亿个参数,是最强大的开源 LLM 之一,能够以 46 种语言和 13 种编程语言提供连贯而准确的文本。
透明度是 BLOOM 的支柱,在这个项目中,每个人都可以访问源代码和训练数据,以便运行、研究和改进它。
BLOOM 可通过 Hugging Face 生态系统免费使用。
3. BERT
图片5.png
LLM 的底层技术是一种称为 transformer 的神经架构。它是由谷歌研究人员在 2017 年发表的论文《Attention is All You Need》中开发的。测试 transformer 潜力的首批实验之一是 BERT。
BERT(代表来自 Transformers 的双向编码器表示)于 2018 年由谷歌作为开源 LLM 推出,并在许多自然语言处理任务中迅速取得了最先进的性能。
得益于 LLM 早期的创新功能及其开源特性,Bert 是最受欢迎且使用最广泛的 LLM 之一。例如,2020 年,谷歌宣布已通过 70 多种语言的谷歌搜索采用了 Bert。
目前有数千种开源、免费且预先训练的 Bert 模型可用于特定用例,例如情绪分析、临床记录分析和恶意评论检测。
对 BERT 的可能性感兴趣?请查看我们的BERT 简介文章。
4.猎鹰 180B
图片2.png
如果Falcon 40B已经给开源 LLM 社区留下了深刻的印象(它在 Hugging Face 的开源大型语言模型排行榜上排名第一),那么新的Falcon 180B表明专有和开源 LLM 之间的差距正在迅速缩小。
Falcon 180B 由阿联酋技术创新研究院于 2023 年 9 月发布,正在对 1800 亿个参数和 3.5 万亿个 token 进行训练。凭借这种令人印象深刻的计算能力,Falcon 180B 已经在各种 NLP 任务中超越了 LLaMA 2 和 GPT-3.5,Hugging Face 表示它可以与 Google 的 PaLM 2(Google Bard的 LLM 引擎)相媲美。
选择开源 LLM 而不是专有 LLM 有多种短期和长期好处。下面列出了最令人信服的理由:
增强数据安全性和隐私性
使用专有法学硕士的最大担忧之一是数据泄露或法学硕士提供者未经授权访问敏感数据的风险。事实上,已经出现了一些关于将个人和机密数据用于培训目的的争议。
通过使用开源 LLM,公司将全权负责个人数据的保护,因为他们将完全控制它。
节省成本并减少对供应商的依赖
大多数专有 LLM 都需要许可证才能使用。从长远来看,这可能是一些公司(尤其是中小企业)无法承受的一笔重要开支。开源 LLM 则不是这样,因为它们通常可以免费使用。
然而,值得注意的是,运行 LLM 需要大量资源,即使仅用于推理,这意味着您通常必须为使用云服务或强大的基础设施付费。
代码透明性和语言模型定制
选择开源 LLM 的公司将能够了解 LLM 的工作原理,包括其源代码、架构、训练数据以及训练和推理机制。这种透明度是审查的第一步,也是定制的第一步。
由于开源 LLM(包括其源代码)可供所有人访问,因此使用它们的公司可以根据其特定用例对其进行定制。
积极的社区支持和促进创新
开源运动有望使 LLM 和生成式 AI 技术的使用 office 365 数据库 和访问变得民主化。允许开发人员检查 LLM 的内部工作原理是该技术未来发展的关键。通过降低全球程序员的准入门槛,开源 LLM 可以促进创新,并通过减少偏见、提高准确性和整体性能来改进模型。
解决人工智能的环境足迹
随着法学硕士的普及,研究人员和环保监督机构开始担心运行这些技术所需的碳足迹和水消耗。专有法学硕士很少发布有关培训和运营法学硕士所需资源的信息,也不会发布相关的环境足迹。
通过开源 LLM,研究人员有更多机会了解这些信息,这可以为旨在减少人工智能对环境影响的新改进打开大门。
2024 年 8 大顶级开源大型语言模型
1.LLaMA 3.1
法学硕士 (LLM) 领域的大多数顶尖企业都选择闭门修读法学硕士 (LLM)。然而,Meta 仍然是个例外,它推出了一系列开源法学硕士 (LLM),目前包括最新的LLaMA 3.1。
LLaMA 3.1 于 2024 年 7 月 23 日发布,包含具有 8B、70B 和首次 405B 参数的模型,是该系列中最大的模型。这些模型旨在处理多种语言的各种自然语言处理任务,包括英语、西班牙语、葡萄牙语、德语、泰语、法语、意大利语和印地语。
LLaMA 3.1 模型支持大幅增加的 128,000 个标记的上下文长度,这增强了它们处理和理解长文本的能力,从而显著提高复杂推理任务的性能并在较长的对话中保持上下文。
405B 模型尤其适用于生成合成数据,可用于训练其他模型,也可用于知识提炼,允许将来自这个大型模型的知识转移到更小、更高效的模型中。此功能为在资源受限的环境中部署高级 AI 开辟了新的可能性。
此外,LLaMA 3.1 继续利用人类反馈强化学习 (RLHF),确保模型符合人类对帮助性和安全性的偏好。
要了解有关 LLaMA 的更多信息,请查看我们的Meta AI 的 LLaMA 简介和我们的微调 LLaMA 3.1文章。
2. 布卢姆
图片6.png
BLOOM于 2022 年推出,是与来自 70 多个国家的志愿者和 Hugging Face 的研究人员进行为期一年的合作项目之后推出的,它是一门自回归法学硕士课程,使用工业规模的计算资源对大量文本数据进行训练,根据提示继续处理文本。
BLOOM 的发布标志着生成式 AI 民主化的重要里程碑。BLOOM 拥有 1760 亿个参数,是最强大的开源 LLM 之一,能够以 46 种语言和 13 种编程语言提供连贯而准确的文本。
透明度是 BLOOM 的支柱,在这个项目中,每个人都可以访问源代码和训练数据,以便运行、研究和改进它。
BLOOM 可通过 Hugging Face 生态系统免费使用。
3. BERT
图片5.png
LLM 的底层技术是一种称为 transformer 的神经架构。它是由谷歌研究人员在 2017 年发表的论文《Attention is All You Need》中开发的。测试 transformer 潜力的首批实验之一是 BERT。
BERT(代表来自 Transformers 的双向编码器表示)于 2018 年由谷歌作为开源 LLM 推出,并在许多自然语言处理任务中迅速取得了最先进的性能。
得益于 LLM 早期的创新功能及其开源特性,Bert 是最受欢迎且使用最广泛的 LLM 之一。例如,2020 年,谷歌宣布已通过 70 多种语言的谷歌搜索采用了 Bert。
目前有数千种开源、免费且预先训练的 Bert 模型可用于特定用例,例如情绪分析、临床记录分析和恶意评论检测。
对 BERT 的可能性感兴趣?请查看我们的BERT 简介文章。
4.猎鹰 180B
图片2.png
如果Falcon 40B已经给开源 LLM 社区留下了深刻的印象(它在 Hugging Face 的开源大型语言模型排行榜上排名第一),那么新的Falcon 180B表明专有和开源 LLM 之间的差距正在迅速缩小。
Falcon 180B 由阿联酋技术创新研究院于 2023 年 9 月发布,正在对 1800 亿个参数和 3.5 万亿个 token 进行训练。凭借这种令人印象深刻的计算能力,Falcon 180B 已经在各种 NLP 任务中超越了 LLaMA 2 和 GPT-3.5,Hugging Face 表示它可以与 Google 的 PaLM 2(Google Bard的 LLM 引擎)相媲美。