SFT调优参数
PackingSFT Packing详解 传统数据集构建方式大语言模型(LLM)微调中两种常见的数据构建与训练方式:单轮对话数据和多轮对话数据 单轮:prompt+response端到端的:模型接受的输入是prompt,需要预测的结果是response,最后计算response上token的loss。 如果输入文本的 Token 数量未达到 --max_length (4096),系统会根据 --padding_free false 参数的设置,自动在序列末尾填充(Padding)占位符,以保证 Batch 内所有序列长度一致。 多轮:为了让模型在对话的任何阶段都能正确回答,会将一条长对话拆分成多个训练样本 第一阶段:只看 p1,预测 r1。 第二阶段:将第一轮作为上下文,看 [p1, r1, p2],预测 r2。 第三阶段:看整个历史 [p1, r1, p2, r2, p3],预测 r3。 这样数据层面没有损失,但是数据量大了N倍,训练的效率比较低 什么是Packing?核心定义Packing 是指将多条不同的文本序列(短样本)合并、打包到同一个样本序列(固定长...
RAG优化策略汇总
数据层——chunks策略优化经典RAG系统面临接受文档长度有限的问题,当私有数据量过大时,传入所有context信息可能导致提示词过长,从而影响模型的处理效率或达到长度上限。在这个流程中,要实现高质量的检索,需要对原始知识文档进行有效的预处理,这也就引出了 RAG 流程中一个至关重要的准备工作——文档分块 (Chunking)。 固定大小分块按照预先设定的固定长度( 最大 token 数)将文本进行切割。为了尽量减少信息损失,通常会在相邻的块之间保留一部分重叠内容(Overlap)。 语义分块将语义关联紧密的句子或段落聚合在一起。 先将文本分成基础单元(如句子),然后计算相邻单元的语义相似度(例如通过嵌入向量的余弦相似度),如果相似度高于某个阈值,则合并这些单元,直到相似度显著下降时才创建一个新的块。 递归分块优先按段落等大语义标识切割,对超限部分逐级降维、递归细化(如换行、句点),直至全部分块达标,实现“大块优先、语义保护、按需精分。 基于文档结构的分块直接利用文档本身固有的、明确的结构元素(如标题层级、章节、列表项、表格、代码块、Markdown 标记等)来定义...
Qwen3-vl-embedding测评报告
一、前言在网络安全场景,多模态数据:恶意邮件截图、钓鱼网站 UI、C2 服务器仪表盘、入侵视频监控、流量可视化图表、漏洞 PoC 界面等。传统 RAG 常因视觉信息丢失而失效(如无法识别“这个登录页 logo 高度相似于某银行”或“这个图表显示的 DNS 隧道流量模式”)。 传统RAG嵌入主要依赖纯文本向量,在多模态场景下存在严重信息丢失(需OCR转换视觉内容,导致布局、颜色、空间关系等细节缺失)、文本查询难召回图像/视频、语义对齐不足等问题,Qwen3-VL-Embedding通过文本、图像、视频直接映射到同一向量空间,语义相似的内容自然“聚类”。文本查询可直接召回相关图像/视频,从而显著降低安全场景中的漏报风险、增强自动化分析能力,并助力构建更可靠的多模态RAG系统。 二、部署(官方推荐uv,也可以自定义conda)项目地址:/data/test_project/qwen_vl_embedding/Qwen3-VL-Embedding 依次执行下面指令 开启代理 1export http_proxy=http://1...
MOE,量化,蒸馏,剪枝
MOE(混合专家架构) 传统模型架构的问题在传统的 Dense(稠密)模型 中,参数量增加一倍,训练和推理所需的算力几乎也要增加一倍,即每次推理都需要动用模型全部参数,正面临着计算成本和能耗的巨大瓶颈。 MoE架构的核心思想MoE 架构通过稀疏激活机制,让模型在拥有巨量参数(高容量)的同时,每次计算只调用极少数专家模块,从而以极低的算力成本将一个复杂的任务分解为多个子任务,每个子任务由一个专门的专家来处理。 MoE结构一个典型的MoE层通常嵌入在Transformer架构中,用于替代其中的前馈网络(Feed-Forward Network, FFN)层。 阶段 核心组件 输入来源 主要操作与逻辑 输出结果 1. 输入接收 Token 表征 前一层 (如 Self-Attention) 接收序列中每个 Token 的高维向量表示。 待处理的 Token 向量 2. 路由分发 **门控网络 ** Token 表征 轻量级计算:通过线性层和 Softmax 计算权重,决定 Token 该去哪个“专家”那里。 专家分配权重 (Routing Weights) 3...
memory开源项目调研
前言 在网络安全领域,大模型需要处理很多和安全有关的文字、图片、视频、音频等信息,比如日志片段、流量特征、威胁情报、攻击链图谱等。为了更准确地找到相关内容和匹配威胁,这些数据通常会被转成向量存入向量数据库。 不过,向量数据库虽然在语义检索方面表现出色,但并不适合管理那些需要频繁更新、覆盖或按照时间顺序维护的安全内容,比如策略变更、最新的 IOC(入侵指标)、用户行为画像等。于是,引入了 Memory,为安全领域的大模型代理提供了一个智能记忆层。它可以持续记住特定用户或团队的操作习惯、威胁偏好、常用的分析路径,并且会随着时间自动更新。这样一来,安全助手就能更好地理解分析者的工作方式,快速关联历史情报,从而提供更有针对性、更高效的安全分析和响应支持。 最关键的是,Memory 还解决了传统 RAG 的一些痛点。**传统 RAG 只能检索静态的内容,它没办法理解用户上下文,也处理不了那些频繁变动的数据,甚至是跨会话记忆用户的推理方式和历史判断。**而加入了可持续演化的 Memory 层后,大模型在检索事实的同时,还能保留长期经验,让安全助手真正具备了“持续学习、持续适应”的能力。本...
HunyuanOCR调研报告
前言在网络安全实践中,大量关键线索以图像形式存在,如钓鱼页面截图、日志截图、恶意广告、凭证凭证等。传统OCR工具虽能提取文字,但面对低质量截图、变形字体、多语言混排或对抗干扰时识别率低,且缺乏语义理解能力——无法结构化提取“伪造发件人”“C2地址”等安全要素。 本文围绕腾讯开源的轻量级视觉语言模型 HunyuanOCR,评估其在安全场景下的实用性。该模型通过提示词驱动,支持端到端的文字检测、信息抽取、表格/公式解析与视觉问答,在卡证票据、带噪截图、多语种文档等复杂图像中表现出优于主流OCR的识别准确率。 调研表明,HunyuanOCR 能有效支持安全运营中的自动化情报提取,但仍存在局限:当前版本仅能识别文字区域,无法直接定位图形、颜色或非文本元素,未来需结合行为上下文或辅助模型,进一步提升在对抗性网络环境中的可用性。 一、部署模型地址:tencent/HunyuanOCR 参数量:1B 模型大小:2.5G 环境:Python 3.12 + CUDA 12.8 + + PyTorch 2.7.1 + vLLM nightly 部署设备:RTX 3090(...
embedding微调测试
在网络安全领域微调 Embedding 的意义在于实现通用语义向专业安全语境的映射:它能让模型理解具有特定安全含义的术语(如将 Spring 识别为框架漏洞而非季节),通过对比学习显著提升对硬负样本(如区分极度相似的攻击 Payload 与正常修复代码)的分辨能力,从而直接优化安全 RAG 系统的检索精度。 Qwen3-embedding0.6B微调前言Embedding 模型的核心是将文本转化为一组低维稠密向量,在数学空间中实现“语义相似的样本距离更近,语义相异的更远”。 在网络安全 RAG(检索增强生成)架构中,Embedding 微调起着**“语义校准”的关键作用。通用模型往往难以区分高度相似的安全术语,微调使模型能精准识别 CVE 漏洞名词、APT 组织特征及复杂的攻击逻辑。通过大幅提升检索环节的召回准确率与排序质量**,微调确保了输入给大模型的上下文是高度相关的威胁情报或处置预案,从而为生成提供可靠的事实依据。 其核心训练逻辑如下: 轻量化训练: 冻结模型大部分主干参数,仅通过训练轻量化的适配器来注入网络安全领域知识。这既保留了模型原有的通用理解能力,又极大降低了算力...
Claude_Skills调研报告
前言(网络安全 × Skill 能力)适配场景:在网络安全垂直领域中,安全团队需要处理海量而杂乱的内容:从威胁情报、漏洞公告,到攻击链分析、日志告警、取证记录,各类文档格式结构不一,导致信息提炼缓慢、分析效率难以提升。传统依赖大模型的做法虽能辅助阅读和理解,但在应对多文档、多格式、持续高频的安全输入时,仍面临成本高、结果不稳定等问题。 核心功能:Claude 推出的 Skill 机制让这些场景首次可以实现**“规则化、模板化、标准化”的自动处理:如自动解析威胁情报、自动对公告进行结构化提取、自动拆解攻击链、自动识别关键实体与风险点,并能长期保持一致的分析口径。** 一、什么是skill一种模块化工具调用框架,核心思想是“给大模型喂预制菜” 提前将可复用的能力封装为 skill 模块; 通过 JSON 文件注册每个 skill 的名称和描述,并注入到 system prompt 中,让大模型知晓可用工具; 大模型根据用户问题自动选择合适 skill; 系统据此查找对应 skill.md 说明文件; 最终按 skill.md 的指示执行脚本或调用程序,完成任务。 m...
CLaRa调研报告
CLaRa 调研报告前言在网络安全领域,RAG 系统(Retrieval-Augmented Generation,检索增强生成)作为一种智能工具,将外部的安全知识库(如漏洞数据库、威胁情报和合规文档)与大型语言模型结合在一起,从而为安全相关的问题提供准确、可追踪的回答。 这种系统主要帮助安全分析人员面对海量、分散且高度专业的安全信息,手动查找效率低下、响应缓慢、知识更新不及时,以及容易忽略关键细节。通过 RAG,系统可以提升威胁评估、事件响应、合规咨询和漏洞管理的自动化水平和准确性。它还能有效减少大型模型在回答专业问题时出现的“幻觉”问题(即模型生成不准确或虚构的信息)。 在RAG系统中,检索器负责从外部知识库中查找与输入问题相关的文档或片段,而压缩器则对检索到的内容进行筛选、精简或重排,以保留最相关的信息并减少噪声,从而提升生成质量与效率。 传统 RAG 系统的局限性尽管传统 RAG 系统通过外部知识增强 LLM,但仍存在两大主要问题: 效率问题:RAG 系统在检索信息时,会将文本转换为低维稠密向量(通常为 256、512 或 1024 维的数字表示,用于语义匹配)。然而,...
AutoAgent 与传统工具函数 Agent 的对比笔记
AutoAgent 与传统工具函数 Agent 的对比笔记 最后更新:2025年10月31日本笔记系统梳理了 AutoAgent(以 Microsoft AutoGen 为代表)与传统“大模型 + 工具函数”实现的 Agent 之间的核心区别、协作机制、底层原理,并对比了 Dify 等低代码平台的定位。 一、核心思想对比1. 传统工具函数 Agent(单智能体 ReAct 模式) 本质:一个大模型 + 一组预定义工具函数。 工作方式: 用户输入任务 → 大模型判断是否需要调用工具 → 调用 → 获取结果 → 继续推理。 循环执行 Reason → Act → Observe(即 ReAct 范式)。 特点: 单一“大脑”,线性或简单分支逻辑。 工具调用由模型自主决定,但无协作能力。 开发简单,适合中低复杂度任务(如查天气、数据查询)。 2. AutoAgent(多智能体协作框架) 本质:多个独立 Agent 组成的协作系统,每个 Agent 可绑定专属工具。 工作方式: 开发者预先定义多个 Agent(如 Coder、Tester、Reviewer)。 Agent 之...

