论文[1] #
-
开源地址 Segment Anything Model模型源码 Git
模型[2] #
image encoder #
prompt encoder #
mask decoder #

在prompt embeddings中插入一个可学习的token,用于docoder的输出。 (1)prompt toekns+output tokens进行self attn, (2)用得到的token和image embedding进行 cross attn(token作为Q) (3)point-wise MLP 更新token (4)用image embedding和(3)的token进行cross atten(image embedding作为Q) 重复上述步骤2次,再将attn再通过残差进行连接,最终输出masks和iou scores。
SAM应用[3] #
- 图像分割
- 目标检测
- 图像修复( image inpainting)
- 模型微调