deephub - 世良情感网

deephub的文章

PyTorchPINN实战：用深度学习求解微分方程

PyTorchPINN实战：用深度学习求解微分方程

神经网络技术已在计算机视觉与自然语言处理等多个领域实现了突破性进展。然而在微分方程求解领域，传统神经网络因其依赖大规模标

SigLIP2：多语言语义理解、定位和密集特征的视觉语言编码器

SigLIP2：多语言语义理解、定位和密集特征的视觉语言编码器

SigLIP 2 是一个新型多语言视觉-语言编码器系列，通过整合基于字幕的预训练、自监督学习机制（包括自蒸馏和掩码预测）

FANformer：融合傅里叶分析网络的大语言模型基础架构

FANformer：融合傅里叶分析网络的大语言模型基础架构

近期大语言模型(LLM)的基准测试结果引发了对现有架构扩展性的思考。尽管OpenAI推出的GPT-4.5被定位为其最强大

S3FT选择性自监督微调：通过智能选择训练样本提升大模型整体表现

S3FT选择性自监督微调：通过智能选择训练样本提升大模型整体表现

选择性自我监督微调（Selective Self-to-Supervised Fine-Tuning，S3FT）是一种创

大语言模型中的归一化技术：LayerNorm与RMSNorm的深入研究

大语言模型中的归一化技术：LayerNorm与RMSNorm的深入研究

在LLama等大规模Transformer架构的语言模型中，归一化模块是构建网络稳定性的关键组件。本文将系统分析归一化技

NeoBERT：具备4096tokens上下文窗口，参数更少但性能翻倍

NeoBERT：具备4096tokens上下文窗口，参数更少但性能翻倍

NeoBERT代表了双向编码器模型的新一代技术发展，通过整合前沿架构改进、现代大规模数据集和优化的预训练策略，有效缩小了

ChainofDraft:借鉴人类草稿思维让大型语言模型更快地思考

ChainofDraft:借鉴人类草稿思维让大型语言模型更快地思考

这个研究探讨了大型语言模型（LLMs）在执行复杂推理任务时面临的计算资源消耗与响应延迟问题。研究特别聚焦于思维链（Cha

Visual-RFT：基于强化学习的视觉语言模型微调技术研究

Visual-RFT：基于强化学习的视觉语言模型微调技术研究

Visual-RFT 代表了视觉语言模型微调领域的技术创新，通过将基于规则的可验证奖励与强化学习相结合，有效克服了传统监

深入解析图神经网络注意力机制：数学原理与可视化实现

深入解析图神经网络注意力机制：数学原理与可视化实现

在图神经网络（Graph Neural Networks, GNNs）的发展历程中，注意力机制扮演着至关重要的角色。通过

深入解析Tiktokenizer：大语言模型中核心分词技术的原理与架构

深入解析Tiktokenizer：大语言模型中核心分词技术的原理与架构

在快速发展的自然语言处理(NLP)领域，分词(tokenization)作为将原始文本转换为机器可处理格式的首要环节，具

机器学习特征筛选：向后淘汰法原理与Python实现

机器学习特征筛选：向后淘汰法原理与Python实现

向后淘汰法（Backward Elimination）是机器学习领域中一种重要的特征选择技术，其核心思想是通过系统性地移

趋势还是噪声？ADF与KPSS检验结果矛盾时的高级时间序列处理方法

趋势还是噪声？ADF与KPSS检验结果矛盾时的高级时间序列处理方法

在时间序列分析领域，评估数据的平稳性是构建准确模型的基础。ADF（Augmented Dickey-Fuller，增广迪

PyTorch内存优化的10种策略总结：在有限资源环境下高效训练模型

PyTorch内存优化的10种策略总结：在有限资源环境下高效训练模型

在大规模深度学习模型训练过程中，GPU内存容量往往成为制约因素，尤其是在训练大型语言模型(LLM)和视觉Transfor

LLM模型添加自定义Token代码示例：为Llama3.2模型添加思考与回答标记

LLM模型添加自定义Token代码示例：为Llama3.2模型添加思考与回答标记

本文将介绍如何为大型语言模型(LLM)添加自定义token并进行训练，使模型能够有效地利用这些新增token。以Llam

Featurewiz-Polars：基于XGBoost的高性能特征选择框架，一行代码搞定特征选择

Featurewiz-Polars：基于XGBoost的高性能特征选择框架，一行代码搞定特征选择

特征选择作为机器学习工作流程中的关键环节，对模型性能具有决定性影响。Featurewiz是一个功能强大的特征选择库，具备

Logic-RL:小模型也能强推理，通过基于规则的强化学习提升大语言模型结构化推理能力

Logic-RL:小模型也能强推理，通过基于规则的强化学习提升大语言模型结构化推理能力

这篇论文探讨了基于规则的强化学习（RL）如何解锁LLM中的高级推理能力。通过在受控的逻辑谜题上进行训练并强制执行结构化的

SelfCite:通过自监督奖励提升LLM对上下文内容的引用质量

SelfCite:通过自监督奖励提升LLM对上下文内容的引用质量

SelfCite 提出了一种新颖的自监督方法，通过上下文消融技术和自监督奖励机制，提升大型语言模型 (LLM) 对上下文

SmolLM2：多阶段训练策略优化和高质量数据集，小型语言模型同样可以实现卓越的性能表现

SmolLM2：多阶段训练策略优化和高质量数据集，小型语言模型同样可以实现卓越的性能表现

SmolLM2 采用创新的四阶段训练策略，在仅使用 1.7B 参数的情况下，成功挑战了大型语言模型的性能边界：在 MML

Diffusion-DPO：一种基于直接偏好优化的扩散模型对齐新方法

Diffusion-DPO：一种基于直接偏好优化的扩散模型对齐新方法

本文介绍了一种名为 Diffusion-DPO 的方法，该方法改编自最近提出的直接偏好优化 (DPO)。DPO 作为 R

LLM高效推理：KV缓存与分页注意力机制深度解析

LLM高效推理：KV缓存与分页注意力机制深度解析

随着大型语言模型（LLM）规模和复杂性的持续增长，高效推理的重要性日益凸显。KV（键值）缓存与分页注意力是两种优化LLM

提供专业的人工智能知识，包括CV NLP 数据挖掘等

热门分类

军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球健康房产家居星座旅游健身时尚科学探索职场育儿股票教育影视情感热点推荐热榜中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期青骄第二课堂少年风超级父母麻辣老师街拍恋爱攻略婚姻情趣正能量