deephub - 世良情感网

deephub的文章

VisionTransformer中的图像块嵌入详解：线性投影和二维卷积的数学原理与代码实现

VisionTransformer中的图像块嵌入详解：线性投影和二维卷积的数学原理与代码实现

Transformer 架构因其强大的通用性而备受瞩目，它能够处理文本、图像或任何类型的数据及其组合。其核心的“Atte

STAR:利用时空注意力机制和动态频率损失的视频超分辨率增强框架

STAR:利用时空注意力机制和动态频率损失的视频超分辨率增强框架

STAR (Spatial-Temporal Augmentation with Text-to-Video Model

DeepMind发布Matryoshka（套娃）量化：利用嵌套表示实现多精度LLM的低比特深度学习

DeepMind发布Matryoshka（套娃）量化：利用嵌套表示实现多精度LLM的低比特深度学习

本文将介绍 Google DeepMind 提出的 Matryoshka 量化技术，该技术通过从单个大型语言模型 (LL

MOIRAI-MOE:基于混合专家系统的大规模时间序列预测模型

MOIRAI-MOE:基于混合专家系统的大规模时间序列预测模型

作为早期时间序列基础模型之一,Salesforce 开发的 MOIRAI 凭借其出色的基准测试性能以及开源的大规模预训练

知识蒸馏方法探究：GoogleDistillingStep-by-Step论文深度分析

知识蒸馏方法探究：GoogleDistillingStep-by-Step论文深度分析

大型语言模型 (Large Language Models, LLMs) 的发展日新月异。从最初的简单对话系统，到如今能

大语言模型的解码策略与关键优化总结

大语言模型的解码策略与关键优化总结

本文系统性地阐述了大型语言模型(Large Language Models, LLMs)中的解码策略技术原理及其实践应用

DeepSeek背后的技术：GRPO，基于群组采样的高效大语言模型强化学习训练方法详解

DeepSeek背后的技术：GRPO，基于群组采样的高效大语言模型强化学习训练方法详解

强化学习（Reinforcement Learning, RL）已成为提升大型语言模型（Large Language M

基于结构化状态空间对偶性的贝叶斯注意力机制设计与实现

基于结构化状态空间对偶性的贝叶斯注意力机制设计与实现

当前的大型语言模型在处理长序列文本时面临挑战。主要的瓶颈在于注意力机制，它将文本处理为单词（或 tokens）序列。注意

近端策略优化(PPO)算法的理论基础与PyTorch代码详解

近端策略优化(PPO)算法的理论基础与PyTorch代码详解

近端策略优化(Proximal Policy Optimization, PPO)算法作为一种高效的策略优化方法，在深度

CoAT:基于蒙特卡洛树搜索和关联记忆的大模型推理能力优化框架

CoAT:基于蒙特卡洛树搜索和关联记忆的大模型推理能力优化框架

研究者提出了一种新的关联思维链(Chain-of-Associated-Thoughts, CoAT)方法，该方法通过整

用傅里叶变换解码时间序列：从频域视角解析季节性模式

用傅里叶变换解码时间序列：从频域视角解析季节性模式

在众多时间序列模型中，SARIMA（seasonal autoregressive integrated moving

DeepSeek×时间序列：DeepSeek-TS，基于状态空间增强MLA与GRPO的时序预测新框架

DeepSeek×时间序列：DeepSeek-TS，基于状态空间增强MLA与GRPO的时序预测新框架

本文介绍 DeepSeek-TS，该框架受到 DeepSeek 中高效的多头潜在注意力（MLA）和群组相对策略优化（GR

SRMT：一种融合共享记忆与稀疏注意力的多智能体强化学习框架

SRMT：一种融合共享记忆与稀疏注意力的多智能体强化学习框架

在人工智能(AI)和强化学习(RL)领域的发展进程中，长期记忆维持和决策优化一直是核心技术难点。传统强化学习模型在经验回

EvalPlanner：基于“计划-执行”双阶段的大语言模型评估框架

EvalPlanner：基于“计划-执行”双阶段的大语言模型评估框架

大语言模型(LLM)评估系统在生成思维链(Chain-of-Thought, CoT)序列时，需要系统地捕捉评估过程中的

DeepSeek技术报告解析：为什么DeepSeek-R1可以用低成本训练出高效的模型

DeepSeek技术报告解析：为什么DeepSeek-R1可以用低成本训练出高效的模型

DeepSeek-R1 通过创新的训练策略实现了显著的成本降低，同时保持了卓越的模型性能。本文将详细分析其核心训练方法。

数据降维技术研究：Karhunen-Loève展开与快速傅里叶变换的理论基础及应用

数据降维技术研究：Karhunen-Loève展开与快速傅里叶变换的理论基础及应用

在现代科学计算和数据分析领域，数据降维与压缩技术对于处理高维数据具有重要意义。本文主要探讨两种基础而重要的数学工具：Ka

PyTorch生态系统中的连续深度学习：使用Torchdyn实现连续时间神经网络

PyTorch生态系统中的连续深度学习：使用Torchdyn实现连续时间神经网络

神经常微分方程（Neural ODEs）是深度学习领域的创新性模型架构，它将神经网络的离散变换扩展为连续时间动力系统。与

DeepSeek背后的技术基石：DeepSeekMoE基于专家混合系统的大规模语言模型架构

DeepSeek背后的技术基石：DeepSeekMoE基于专家混合系统的大规模语言模型架构

DeepSeekMoE是一种创新的大规模语言模型架构，通过整合专家混合系统(Mixture of Experts, Mo

哪些特征导致过拟合？ParShap定位导致模型泛化能力下降的关键特征

哪些特征导致过拟合？ParShap定位导致模型泛化能力下降的关键特征

机器学习的核心目标是在未见过的新数据上实现准确预测。当模型在训练数据上表现良好，但在测试数据上表现不佳时，即出现“过拟合

PythonGIL（全局解释器锁）机制对多线程性能影响的深度分析

PythonGIL（全局解释器锁）机制对多线程性能影响的深度分析

在Python开发领域，GIL（Global Interpreter Lock）一直是一个广受关注的技术话题。在3.13

提供专业的人工智能知识，包括CV NLP 数据挖掘等

热门分类

军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球健康房产家居星座旅游健身时尚科学探索职场育儿股票教育影视情感热点推荐热榜中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期青骄第二课堂少年风超级父母麻辣老师街拍恋爱攻略婚姻情趣正能量