BotOf Tech — 技术与植物养护笔记

第一篇我们选定了路线：视觉富文档优先范式 C（late-interaction 多向量，ColPali 系）。但这条路线有一个绕不开的工程账：

ColPali 单页 ≈ 1030 个向量，每个 128 维 float32
单页存储 ≈ 1030 × 128 × 4 byte ≈ 527 KB（含元数据约 256KB 量级的有效载荷）
100 万页 ≈ 数百 GB 向量
查询：query 的每个 token 要和文档的每个 patch 算相似度 → 计算量大

文本 RAG 一页一个向量，视觉文档 RAG 一页上千个向量。存储和延迟成本直接放大三个数量级。 本篇要解决的就是：在尽量不掉点的前提下，把这个成本压到能上生产。所有数字都来自可核验的来源，标注引用；凡是工程默认值，会明确标注"经验区间"。

一、调参的全局视角

把可调的旋钮按"数据流顺序"排开，能看清每个旋钮影响什么：

核心权衡始终是同一个三角：精度 ↔ 存储 ↔ 延迟。下面逐个旋钮拆。

二、图像分辨率与 patch：向量数量的源头

向量数量 = patch 数量，而 patch 数量由输入分辨率决定。ColPali 把页面切成 32×32 的网格（约 1024 个图像 patch）再加少量特殊 token，于是有了"单页约 1030 向量"这个数字。[¹]

这里的第一个旋钮就是输入分辨率：

分辨率越高 → patch 越多 → 小字/细节召回越好，但向量数量、存储、延迟线性上涨；
分辨率越低 → 向量少、便宜，但密集文本页会糊成一片。

分辨率策略	代表	特点	适用
固定网格（32×32）	ColPali	简单、可预测的向量数	版式规整的页面
动态分辨率	Qwen2-VL / ColQwen2.5	按内容缩放 patch 数	长页、混合密度
变长 NaFlex	SigLIP2	变长 patch、保留长宽比	非标准尺寸图像

经验做法：先用模型默认分辨率跑基线；只有当评测集里"小字/表格类问题"召回明显偏低时，才上调分辨率，并用第四节的两阶段检索把上涨的延迟吃回来。不要一上来就拉满分辨率——多数掉点其实出在量化和检索策略，而不是分辨率。

三、Embedding 维度与 Matryoshka 截断

第二个旋钮是向量维度。Matryoshka Representation Learning（MRL）训练出的 embedding，前若干维就已经携带了大部分语义信息，可以直接截断到更短维度而不需要重新编码。

以 Jina Embeddings v4 为例：dense 单向量是 2048 维，可经 MRL 截断到 128 维；多向量是 128 维/token。[²] 截断是纯切片操作，几乎零成本：

import numpy as np

def mrl_truncate(emb: np.ndarray, dim: int) -> np.ndarray:
    """MRL 截断：取前 dim 维并重新归一化（截断后必须重新 L2 归一化）"""
    truncated = emb[..., :dim]
    norm = np.linalg.norm(truncated, axis=-1, keepdims=True)
    return truncated / np.clip(norm, 1e-12, None)

# 2048 维 -> 256 维：存储降到 1/8，余弦检索仍可用
short = mrl_truncate(full_2048d, 256)

维度截断带来的存储收益是线性的（2048→256 即 8x），精度损失通常随截断比例平滑下降。经验区间：

截断目标维度	存储	典型用途
1024–2048	基线	离线高精度重排
512	1/4	大多数生产检索的甜点区
128–256	1/8 ~ 1/16	第一阶段粗排 / 超大规模

下一节会看到，把"短维度做粗排 + 长维度做重排"组合起来，正是控制成本的关键套路。

四、MaxSim、top-k 与两阶段检索（关键提速手段）

MaxSim 是 late-interaction 的打分函数：对查询的每个 token 向量，在文档的所有 patch 向量里取最大相似度，再求和。

import torch

def max_sim(q: torch.Tensor, d: torch.Tensor) -> torch.Tensor:
    """
    q: [num_query_tokens, dim]
    d: [num_doc_patches, dim]
    返回 late-interaction 分数：Σ_i max_j ⟨q_i, d_j⟩
    """
    sim = q @ d.T                 # [num_query_tokens, num_doc_patches]
    return sim.max(dim=1).values.sum()

问题在于：对每一个候选文档都做一次完整 MaxSim（query M 个 token × 文档 N≈1030 个 patch），全库扫一遍计算量爆炸。解法是两阶段检索（two-stage / pool-then-rerank），这是目前控制多向量延迟最有效、也被实测验证的工程手段：[¹]

Qdrant 的实测：把 ColPali 单页 1030 个向量 mean-pool 降到 38 个（32 个网格行的均值 + 6 个上下文特殊 token）做第一阶段粗排取 top-200，再用全分辨率嵌入重排，相比只用全分辨率，检索提速 13x。关键细节：池化方式必须用 mean，不能用 max——[¹]

池化方式	两阶段 NDCG@20	Recall@20
Mean pooling	0.952	0.917
Max pooling	0.759	0.656

mean pooling 几乎无损，max pooling 大幅退化。这个结论被另外两项工作独立佐证方向：Visual RAG Toolkit 报告约 4x QPS 提升（arXiv 2602.12510），Light-ColPali 报告保留 98.2% NDCG@5 而内存降到 11.8%（arXiv 2506.04997）。[³][⁴]

行均值池化的参考实现：

import torch

def row_mean_pool(patch_vecs: torch.Tensor, grid_rows: int = 32) -> torch.Tensor:
    """
    patch_vecs: [num_patches(~1024), dim]  —— 按 32x32 网格排列
    返回 [grid_rows, dim]，即每行 patch 的均值（粗排用的压缩表示）
    """
    per_row = patch_vecs.shape[0] // grid_rows
    pooled = patch_vecs[: per_row * grid_rows].view(grid_rows, per_row, -1).mean(dim=1)
    return torch.nn.functional.normalize(pooled, dim=-1)

top-k 经验区间：第一阶段粗排取 top-100 ~ top-500（候选越多精排越准但越慢，200 是常见甜点），第二阶段精排后给生成层 top-3 ~ top-10 页。

五、量化：把存储压下来的主力

量化是把每维从 float32（4 byte）压成更小表示。对多向量场景，这是降存储最猛的旋钮。有三条经过验证的路径。

5.1 binary 量化 + float32 rescoring（推荐组合）

把每维压成 1 bit（正→1，负→0），存储直接降到 1/32。单独 binary 会掉点，但加一个 rescoring 阶段就能救回来：先用 binary 检索 rescore_multiplier × top_k 个候选，再用原始 float32 查询向量对这批候选重打分。该技术可恢复到原始 float 表示的 95–96% 检索质量（技术源自 Yamada et al. 2021）。[⁵][⁶]

实测数字（mxbai-embed-large-v1，MTEB Retrieval）：binary-only 92.53% → 加 float32-query rescoring 96.45%。[⁶]

import numpy as np

def binarize(emb: np.ndarray) -> np.ndarray:
    """float32 -> 1bit/维，打包成 uint8（每 8 维一个字节）"""
    bits = (emb > 0).astype(np.uint8)
    return np.packbits(bits, axis=-1)

def search_with_rescore(query_f32, doc_bits, doc_f32, top_k=10, rescore_multiplier=4):
    # ① 用 binary 海明距离快速取 rescore_multiplier*top_k 个候选
    q_bits = binarize(query_f32)
    hamming = (np.unpackbits(doc_bits, axis=-1) != np.unpackbits(q_bits)).sum(axis=-1)
    cand = np.argsort(hamming)[: top_k * rescore_multiplier]
    # ② 用 float32 查询对候选做精确重打分
    scores = doc_f32[cand] @ query_f32
    return cand[np.argsort(-scores)[:top_k]]

5.2 Matryoshka 截断 + binary（最高 64x 压缩）

把 MRL 截断和 binary 叠加：1024 维 float（4096 byte）→ 截到 512 维 → 512 bit = 64 byte（恰好和 SHA-512 一样大），即 64x 存储压缩，在 MTEB Retrieval 上保留约 90%（实测 90.76% NDCG@10）。[⁵] 算术拆解：32x 来自 float32→1bit，2x 来自 1024→512 截断。

5.3 K-Means 1-byte 量化（多向量专用，最高 32x）

HPC-ColPali 用 K-Means 把每个 patch 向量量化成 1-byte 质心索引：512 byte（128 维 float32）→ 1 byte，最高 32x 存储压缩。[⁷]

三条路径汇总：

量化方案	压缩比	精度保留	适用	来源
binary + rescoring	32x	95–96%	通用，强烈推荐	Vespa / HF [⁵][⁶]
Matryoshka + binary	64x	~90%	超大规模、可接受小掉点	Vespa / mixedbread [⁵]
int8 标量量化	4x	接近无损	保守、稳妥	通用实践
K-Means 1-byte（多向量）	32x	高（best-case）	ColPali 类多向量	HPC-ColPali [⁷]

必须避坑：本系列调研中，HPC-ColPali 的"注意力剪枝削减 60% 计算、<2% nDCG 损失"和"HNSW 下降低 30–50% 延迟"两条流传较广的说法，在对抗式核验中被否决，不要引用。可放心采用的是上表中经多源确认的数字。

六、HNSW / IVF 索引参数（经验区间）

下面是向量索引的常用参数。注意：这些是社区与官方文档广泛采用的工程默认/经验区间，不是针对图像 RAG 的专门基准——务必在自己的数据上扫参确认。 本轮调研未对图像 RAG 场景的 HNSW/IVF 最优值做对抗核验。

HNSW（图索引，低延迟、高内存）：

参数	经验区间	含义 / 调法
`M`	16–32（高召回可到 64）	每节点连边数。越大召回越高、内存越大
`ef_construction`	100–200（高质量 256–512）	建图时搜索宽度。越大建索引越慢、质量越高
`ef_search`	64–256	查询时搜索宽度。在线可调，用它在召回/延迟间动态权衡

IVF（倒排，省内存、适合超大规模）：

参数	经验区间	含义 / 调法
`nlist`	≈ √N ~ 4√N（N=向量数）	聚类桶数
`nprobe`	nlist 的 1%–10%	查询探测桶数。越大召回越高、越慢

多向量场景的实操建议：索引建在"池化后的粗排向量"上（第四节的 38 维表示），全分辨率向量只在精排阶段按候选 id 取出做 MaxSim——这样 HNSW/IVF 面对的是常规规模的单向量索引，参数沿用上表即可。

七、重排（rerank）

两阶段检索的"精排"用 MaxSim 全分辨率重打分；如果还要更高精度，可以再叠一层 VLM 重排器。MonoQwen2-VL-v0.1 是首个视觉文档 pointwise reranker（基于 Qwen2-VL-2B 的 LoRA），论文报告 ViDoRe ndcg@5 达 90.5。[⁸] 它直接对"查询 + 候选页图像"打分，适合放在 Top-50 → Top-10 这一段。

检索分层（典型三段）：
  ① 粗排  池化向量 + HNSW        →  Top-200
  ② 精排  全分辨率 MaxSim         →  Top-50
  ③ 重排  MonoQwen2-VL VLM rerank →  Top-10  → 送生成

八、调参速查表

把全篇收敛成一张可贴在工位上的速查表：

旋钮	起步默认	何时上调	何时下调
输入分辨率	模型默认	小字/表格召回低	延迟/存储吃紧
Embedding 维度	粗排 128–256 / 精排 1024+	精度不够	规模太大
量化	binary + rescoring（32x）	存储吃紧→叠 MRL（64x）	要极致精度→int8/不量化
池化（粗排）	mean（32 行+6 token）	—	永远别用 max
粗排 top-k	200	召回不足	延迟吃紧
精排 top-k	50 → 生成 3–10	—	—
HNSW `ef_search`	128	召回不足	延迟吃紧
重排	关	高精度需求 → MonoQwen2-VL	延迟敏感

小结与下一篇

本篇把范式 C 的成本难题逐一拆开：分辨率决定向量数量，Matryoshka 降维度，量化降存储（binary+rescoring 32x/95–96%，叠 MRL 到 64x/~90%），两阶段检索降延迟（mean-pool 38 向量、13x 提速），HNSW/IVF 管索引，VLM reranker 提精度。

一条可直接抄的生产配方：ColQwen2.5 多向量 → mean-pool 行向量建 HNSW 粗排取 Top-200 → 全分辨率 MaxSim 精排 Top-50 → MonoQwen2-VL 重排 Top-10 → binary+rescoring 量化存储。精度损失可控，存储和延迟降一到两个数量级。

第三篇《工程化与落地》会把这套配方变成能跑的代码和能部署的架构：完整架构图、ColQwen2+Byaldi+VLM 的端到端参考实现、Milvus/Qdrant 多向量 schema、vLLM 服务化、GPU 选型与成本权衡、以及离线评测集的搭建。

图像 RAG 工程实战（二）：检索与参数调优