【DeepSeek联合北大发布新论文 提出“条件记忆”机制并开源Engram模块】
DeepSeek于12日晚发布新学术论文《基于可扩展查找的条件记忆:大型语言模型稀疏性的新维度》(Conditional Memory...
【DeepSeek联合北大发布新论文 提出“条件记忆”机制并开源Engram模块】
DeepSeek于12日晚发布新学术论文《基于可扩展查找的条件记忆:大型语言模型稀疏性的新维度》(Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models)。该论文由北京大学与DeepSeek联合完成,合著作者中包括公司创始人梁文锋。论文提出“条件记忆”(conditional memory)创新机制,通过引入可扩展的查找记忆结构,能够在保持参数规模和计算量不变的条件下,显著提升大语言模型在知识调用、逻辑推理、代码生成及数学问题解决等多个关键任务上的性能表现。
编辑回复