LLM 基础知识

一、什么是LLM？

LLM （Large Language Model，大语言模型） 是一种使用大量参数和海量语料训练出来的语言模型，能够根据输入上下文预测、生成或转换文本，并完成问答、写作翻译、摘要、代码生成等语言相关任务。

在人工智能领域，token（词元）是大语言模型处理文本时使用的基本单位，是文本被模型切分后的最小计算单元。

例如：

text

LLM如何工作？

可能被拆分成：

text

LLM / 如何 / 工作 / ?

这里的LLM 、如何、工作、？都可以看作 token，token不一定等于一个字、也不一定等于一个词。它可能是一个汉字、一个词、一个词的一部分、一个标点符号或代码符号。