LLM的历史时间线

(AI时间线生成)

LLM(Large Language Model,大型语言模型)是一种基于深度学习的自然语言处理模型,通过在海量文本数据上进行预训练,能够理解和生成人类语言,广泛应用于对话系统、文本生成、翻译、摘要等领域,是人工智能发展的重要里程碑。

2017年

Google发布Transformer架构论文《Attention Is All You Need》,该架构引入了自注意力机制,显著提升了序列建模的效率,成为后续LLM发展的基础。同年,OpenAI发布GPT-1(Generative Pre-trained Transformer),基于Transformer解码器,通过无监督预训练和有监督微调,在多项NLP任务中取得突破。

2018年

OpenAI推出GPT-2,参数量达15亿,训练数据规模扩大,展示了强大的文本生成能力,但因潜在滥用风险,初期仅部分发布。Google发布BERT(Bidirectional Encoder Representations from Transformers),基于Transformer编码器,通过双向上下文理解,在多项基准测试中刷新记录,推动了预训练模型的应用。

2020年

OpenAI发布GPT-3,参数量达1750亿,训练数据涵盖数千亿单词,展示了少样本和零样本学习能力,能够执行多种任务而无需特定微调,引发广泛关注。同期,其他机构如Google推出T5等模型,进一步探索LLM的规模和能力边界。

2022年

OpenAI发布ChatGPT,基于GPT-3.5微调,通过人类反馈强化学习(RLHF)优化对话交互,迅速成为现象级应用,推动LLM进入大众视野。Google发布PaLM,参数量达5400亿,在推理和多语言任务中表现优异。Meta开源LLaMA系列模型,促进开源社区发展。

2023年

OpenAI发布GPT-4,支持多模态输入(文本和图像),在复杂任务和安全性上显著提升,成为商业应用的主流模型。Anthropic发布Claude,强调安全性和对齐性。Google推出Gemini,整合多模态能力。开源模型如Mistral、Llama 2等快速发展,降低LLM使用门槛。

2024年

LLM技术持续演进,模型规模趋于稳定,重点转向效率优化、多模态扩展和实际应用部署。行业关注点包括降低训练成本、提升推理速度、增强安全性和可解释性,以及探索在医疗、教育、娱乐等垂直领域的深度集成,推动人工智能向更广泛的社会经济渗透。

更多历史时间线