HunyuanOCR调研报告
前言在网络安全实践中,大量关键线索以图像形式存在,如钓鱼页面截图、日志截图、恶意广告、凭证凭证等。传统OCR工具虽能提取文字,但面对低质量截图、变形字体、多语言混排或对抗干扰时识别率低,且缺乏语义理解能力——无法结构化提取“伪造发件人”“C2地址”等安全要素。 本文围绕腾讯开源的轻量级视觉语言模型 HunyuanOCR,评估其在安全场景下的实用性。该模型通过提示词驱动,支持端到端的文字检测、信息抽取、表格/公式解析与视觉问答,在卡证票据、带噪截图、多语种文档等复杂图像中表现出优于主流OCR的识别准确率。 调研表明,HunyuanOCR 能有效支持安全运营中的自动化情报提取,但仍存在局限:当前版本仅能识别文字区域,无法直接定位图形、颜色或非文本元素,未来需结合行为上下文或辅助模型,进一步提升在对抗性网络环境中的可用性。 一、部署模型地址:tencent/HunyuanOCR 参数量:1B 模型大小:2.5G 环境:Python 3.12 + CUDA 12.8 + + PyTorch 2.7.1 + vLLM nightly 部署设备:RTX 3090(24GB) * 1 使...
embedding微调测试
在网络安全领域微调 Embedding 的意义在于实现通用语义向专业安全语境的映射:它能让模型理解具有特定安全含义的术语(如将 Spring 识别为框架漏洞而非季节),通过对比学习显著提升对硬负样本(如区分极度相似的攻击 Payload 与正常修复代码)的分辨能力,从而直接优化安全 RAG 系统的检索精度。 Qwen3-embedding0.6B微调前言Embedding 模型的核心是将文本转化为一组低维稠密向量,在数学空间中实现“语义相似的样本距离更近,语义相异的更远”。 在网络安全 RAG(检索增强生成)架构中,Embedding 微调起着“语义校准”的关键作用。通用模型往往难以区分高度相似的安全术语,微调使模型能精准识别 CVE 漏洞名词、APT 组织特征及复杂的攻击逻辑。通过大幅提升检索环节的召回准确率与排序质量,微调确保了输入给大模型的上下文是高度相关的威胁情报或处置预案,从而为生成提供可靠的事实依据。 其核心训练逻辑如下: 轻量化训练: 冻结模型大部分主干参数,仅通过训练轻量化的适配器来注入网络安全领域知识。这既保留了模型原有的通用理解能力,又极大降低了算力成本。 ...
Claude_Skills调研报告
前言(网络安全 × Skill 能力)适配场景:在网络安全垂直领域中,安全团队需要处理海量而杂乱的内容:从威胁情报、漏洞公告,到攻击链分析、日志告警、取证记录,各类文档格式结构不一,导致信息提炼缓慢、分析效率难以提升。传统依赖大模型的做法虽能辅助阅读和理解,但在应对多文档、多格式、持续高频的安全输入时,仍面临成本高、结果不稳定等问题。 核心功能:Claude 推出的 Skill 机制让这些场景首次可以实现“规则化、模板化、标准化”的自动处理:如自动解析威胁情报、自动对公告进行结构化提取、自动拆解攻击链、自动识别关键实体与风险点,并能长期保持一致的分析口径。 一、什么是skill一种模块化工具调用框架,核心思想是“给大模型喂预制菜” 提前将可复用的能力封装为 skill 模块; 通过 JSON 文件注册每个 skill 的名称和描述,并注入到 system prompt 中,让大模型知晓可用工具; 大模型根据用户问题自动选择合适 skill; 系统据此查找对应 skill.md 说明文件; 最终按 skill.md 的指示执行脚本或调用程序,完成任务。 map...
CLaRa调研报告
CLaRa 调研报告前言在网络安全领域,RAG 系统(Retrieval-Augmented Generation,检索增强生成)作为一种智能工具,将外部的安全知识库(如漏洞数据库、威胁情报和合规文档)与大型语言模型结合在一起,从而为安全相关的问题提供准确、可追踪的回答。 这种系统主要帮助安全分析人员面对海量、分散且高度专业的安全信息,手动查找效率低下、响应缓慢、知识更新不及时,以及容易忽略关键细节。通过 RAG,系统可以提升威胁评估、事件响应、合规咨询和漏洞管理的自动化水平和准确性。它还能有效减少大型模型在回答专业问题时出现的“幻觉”问题(即模型生成不准确或虚构的信息)。 在RAG系统中,检索器负责从外部知识库中查找与输入问题相关的文档或片段,而压缩器则对检索到的内容进行筛选、精简或重排,以保留最相关的信息并减少噪声,从而提升生成质量与效率。 传统 RAG 系统的局限性尽管传统 RAG 系统通过外部知识增强 LLM,但仍存在两大主要问题: 效率问题:RAG 系统在检索信息时,会将文本转换为低维稠密向量(通常为 256、512 或 1024 维的数字表示,用于语义匹配)。然而,...
AutoAgent 与传统工具函数 Agent 的对比笔记
AutoAgent 与传统工具函数 Agent 的对比笔记 最后更新:2025年10月31日本笔记系统梳理了 AutoAgent(以 Microsoft AutoGen 为代表)与传统“大模型 + 工具函数”实现的 Agent 之间的核心区别、协作机制、底层原理,并对比了 Dify 等低代码平台的定位。 一、核心思想对比1. 传统工具函数 Agent(单智能体 ReAct 模式) 本质:一个大模型 + 一组预定义工具函数。 工作方式: 用户输入任务 → 大模型判断是否需要调用工具 → 调用 → 获取结果 → 继续推理。 循环执行 Reason → Act → Observe(即 ReAct 范式)。 特点: 单一“大脑”,线性或简单分支逻辑。 工具调用由模型自主决定,但无协作能力。 开发简单,适合中低复杂度任务(如查天气、数据查询)。 2. AutoAgent(多智能体协作框架) 本质:多个独立 Agent 组成的协作系统,每个 Agent 可绑定专属工具。 工作方式: 开发者预先定义多个 Agent(如 Coder、Tester、Reviewer)。 Agent 之...
浙江大学《大模型基础》读书笔记2——大语言模型结构
前言 一、 Encoder-only架构Encoder-only 架构模型的预训练阶段和推理阶段在输入编码和特征编码部分是一致的 二、 Encoder-Decoder 架构Encoder-Decoder架构是标准的transformer架构,融合了自注意力机制、掩码注意力机制和交叉注意力机制 三、 Decoder-only架构Decoder-only 架构中的注意力矩阵来自于掩码自注意力模块,其特点是呈现 出“下三角”的注意力模式。这意味着在预测当前 Token 时,模型只能依赖于已经 生成的历史 Token 信息,体现了单向注意力机制。 四、注意力矩阵 架构类型 注意力模式 注意力方向 主要应用场景 Encoder-only 完全(矩阵全满) 双向 文本理解、情感分析 Encoder-Decoder 混合(含交叉注意力) 双向 + 单向 机器翻译、摘要生成 Decoder-only 下三角(掩码) 单向 文本生成、对话系统 五、适配 架构类型 擅长的核心领域 典型任务示例 对应你的观点 Encoder-only (如 BERT) N...
浙江大学《大模型基础》读书笔记1——语言模型基础
前言语言是由音韵、词法和句法构成的复杂符号系统,其核心特征是具有不确定性,因此语言模型(LMs)的本质在于准确预测符号的概率。从技术演进来看,语言模型经历了从基于规则(如ELIZA)、统计模型到神经网络模型(如GPT-4)的跨越,实现了从机械化程序到具备强大泛化能力的智能模型的转变 一、基于规则通过人工编写的词法、句法和语义规则来描述和生成语言 下面给出基于规则的语言模型的典型例子,便于理解其工作方式: 例子:基于上下文无关文法(CFG)的简单语言模型 设定一组人工规则: 句子规则:S → 主语 谓语 主语规则:主语 → 名词 谓语规则:谓语 → 动词 名词 词汇表规则: 名词 → {“我”,“你”,“苹果”} 动词 → {“吃”,“喜欢”} 根据这些规则,模型可以生成或判断合法句子,如: “我 吃 苹果” “你 喜欢 苹果” 而不符合规则的句子(如“吃 我 苹果”)将被判定为不合法。 二、基于统计n-grams 语言模型如何计算语言符号出现的概率n-grams 语言模型是在 n 阶马尔可夫假设下,对语料库中出现的长度为 n 的词序列出现概率的极大似然估计。 马尔可夫...
文本自动标注系统设计文档
前言在网络安全运营中,安全团队每天要处理大量非结构化的文本信息,包括告警日志、威胁情报、工单描述等,这些内容往往语言表达多样、标签层级复杂,传统依赖规则或监督学习的方法难以高效应对。本系统聚焦于解决实际运营中几类典型问题:例如自动识别一段文本是否来自外部研究机构的情报,判断其中是否描述了特定攻击手法,并能将其准确归入“威胁情报 → 情报来源类型 → 外部订阅 → research_feed”这样的嵌套标签路径中,从而支撑后续研判、归因与响应。 目前系统仍有不少问题尚未覆盖: 生成样本的质量受限于大模型提示词的单一性,可能存在事实错误或语义偏差; 置信度评估机制较为简化,对边界模糊或语义接近但标签不同的情况缺乏可靠的不确定性判断能力。 该系统的设计遵循以下流程,总的概括为几个步骤: 调用大模型接口生成初始文本切片以及标注数据 将切片数据embedding后连同原文本和标签一同存入Milvus数据库 基于ANN对用户输入的结构化标签进行四层分层检索策略 将检索后返回的最相似的文本标签作为输入切片的标签 计算新标签的置信度confidence 将新数据存入数据库 一、原始向量...
探究通过各种绕过网易易盾人工验证的方法
前言:在网络安全与情报分析工作中,自动化抓取互联网信息成为关键手段。然而,越来越多网站为防范爬虫和批量操作,部署了多样化、高难度的人工验证机制,包括滑块拼图、汉字点选、障碍躲避等类型。这些验证码不仅包含图形干扰,还融入语义理解(如“点击包含交通标志的图片”)、逻辑判断(如“按成语顺序点选汉字”)甚至动态行为分析,使得传统的自动化绕过方法(如基于 OpenCV 的模板匹配、OCR 识别)难以应对——前者在面对旋转、变形、动态干扰时失效,后者在复杂背景或非标准字体下识别率骤降。 为突破这一瓶颈,本文聚焦于滑块验证(含旋转干扰)、文字点选(成语/顺序类)与障碍躲避三类典型验证码,调研基于视觉语言大模型的智能识别与交互新方法。通过结合Playwright与多模态大模型的语义理解能力,构建了一套能理解验证任务语义、定位目标元素、模拟人类操作的自动化流程。 对于高度动态、行为特征强绑定(如鼠标轨迹分析)或需上下文记忆的验证形式,当前方法仍存在局限,需进一步融合行为模拟与上下文推理能力。 一个自动化登录的demo 一、VL大模型1.1 定义视觉-语言大模型(Vision-Language M...
开源项目DeepAnalyze部署历程
前言DeepAnalyze 是由中国人民大学数据与智能实验室推出的首个面向自主数据科学的智能体大语言模型(Agentic LLM),能够无需人工干预,端到端自动完成包括数据准备、分析、建模、可视化和报告生成在内的完整数据科学流程,支持结构化、半结构化和非结构化等多种数据源,并完全开源模型、代码、训练数据与演示系统,便于本地部署和二次开发。 本地部署配置GPU:RTX 3090(24GB) * 1 CPU:12 vCPU Intel(R) Xeon(R) Platinum 8255C CPU @ 2.50GHz 内存:43GB 硬盘:系统盘:30 GB 部署步骤1,将DeepAnalyze-8B下载到DeepAnalyze-main/models文件夹 2,更改max_tokens(降低模型性能,视情况) 3,下载依赖包(可以把数据分析常用的依赖包也加进去,因为webUI运行代码时可能不会自动下载依赖包,会导致运行失败,后续也需要手动pip) 1pip install -r requirements.txt 4,如果需要构建 OpenAI 风格的 API,那么修改demo/bac...

