NERV - 与其感慨路难行，不如马上出发

论文笔记 - OFA: Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Framework

Posted on 2022-11-20 In 论文笔记

在本篇论文中，作者提出了一种适用于任何任务、任何模态的框架，统一了多种多模态、单模态的任务，包括图像生成、图像分类、图像文本问答等任务。在预训练和微调阶段，OFA算法都适用了指示型学习的方法，在下游任务上不需要和任务相关layer。此外，OFA仅使用2000万公开的文本-图像对数进行训练，性能已经达到了SOTA水平，而且可以有效的迁移至未曾训练过的任务和模态上。

论文笔记 - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting

Posted on 2022-11-13 In 论文笔记

使用大规模文本-图片对进行对比学习训练(CLIP)的方法发展很快，也给下游任务提供了一个很好的模型，但是对于分割任务而言，由于其需要产生pixel级别的密集预测，因此，如何将通过文本-图片对级别训练得到的先验迁移到文本-像素级别的模型上，就成了一个值得研究的问题，为此，本文提出了一种一种将CLIP权重迁移到图像分割模型上的finetune方法。通过进一步从图像中获得背景信息，可以进一步改善CLIP的文本编码器，从而提高模型性能。本文提出的finetune方法可以用于任意图像分割模型，并取得性能提升。

论文笔记 - Sparse R-CNN: End-to-End Object Detection with Learnable Proposals

Posted on 2022-11-06 In 论文笔记

现有的目标检测方法大多依赖于密集的anchor box，如faster rcnn，retinanet等，这些anchor box需要手工设定，且数量众多，同时会造成大量重复的预测，需要nms才能去除，因此使目标检测算法较为复杂。本文借鉴DERT中的set prediction思想，将RCNN算法中大量手工设计的anchor生成的proposal转换为固定数量的个可学习的proposal，减少了计算量，且由于proposal与gt为一一对应，因此无需使用NMS进行后处理，极大地简化了目标检测的流程。

论文笔记 - Multimodal Masked AutoencodersLearn Transferable Representations

Posted on 2022-10-30 In 论文笔记

现有基于图像-文本对数据的对比学习训练方法(CLIP等)大多构建2个独立的encoder，无法使用不成对的弱监督数据，且对比学习的采样策略会带来一定的bias，为此，本文提出了一种图像-文本数据统一的encoder，通过预测mask token来训练。在大规模的图像-文本数据集上进行实验表明，预训练的模型在下游任务上有很好的表现，且与bert相比，M3AE可以使用更高的文本mask ratio。除此之外，该模型可以在图像-文本对或图像数据上使用

论文笔记 - Multi-Granularity Prediction for Scene TextRecognition

Posted on 2022-10-23 In 论文笔记

本篇论文提出了一种可以隐式融入语言模型信息的多粒度预测策略，来进行文本识别。与其他使用语言模型的文本识别算法不同，该方法不需要在视觉模型以外显式的训练一个语言模型，而是通过NLP中常见的subword reprewsentation来构建除字符以外的监督信息，从而隐式的引入语言模型信息，并提高文本识别精度。

论文笔记 - You Can even Annotate Text with Voice:Transcription-only-Supervised Text Spotting

Posted on 2022-10-16 In 论文笔记

这篇论文是第一篇只使用文本标注进行训练的text spotting算法，该方法使用transformer来学习文本query和图片特征的交互，来隐式学习文本位置的相关信息，然后在文本识别的过程中，通过attention map的形式显式地表现出来，为了提高定位精度，本文还提出了一种由粗到精的注意力定位机制。为了帮助模型快速收敛，本文提出了一种循环分阶段式的学习策略。此外，本文提出了一种通过语音进行文本标注的方式，来降低标注文本所需要的时间。

论文笔记 - Towards Weakly-Supervised Text Spotting using a Multi-Task Transformer

Posted on 2022-10-05 Edited on 2022-10-07 In 论文笔记

为了能够充分利用未标注数据，本文提出了一种基于transformer的端到端文本识别算法，该算法是第一个可以同时使用有监督和弱监督进行训练的端到端文本识别算法，该方法使用同一个隐变量完成多个任务，并提出一种新的适用于文本识别的匈牙利匹配Loss，该方法可以使用只带有文本标注的图片进行训练，并达到与有监督算法相当的指标，加入标注数据后进行，性能会超过现有的有监督算法

论文笔记 - Sequence-to-Sequence Contrastive Learning for Text Recognition

Posted on 2022-09-28 Edited on 2022-09-29 In 论文笔记

这篇论文借鉴对比学习算法simCLR，并在其基础上针对文本识别的特点进行改良形成seqCLR算法，通过引入instance mapping，实现sub-word level级别的对比学习，来提供一个良好的预训练模型。同时，针对文本识别特点，提出更加合适的数据增强防范。在手写字符数据集和街景数据集上的实验结果表明，当使用全部标签finetune预训练模型时，seqCLR算法的性能要优于有监督识别算法

论文笔记 - Toward Understanding WordArt: Corner-Guided Transformer for Scene Text Recognition

Posted on 2022-08-30 Edited on 2022-09-28 In 论文笔记

这篇文章针对的是艺术字体识别领域，为了克服艺术字体识别中存在的问题，作者引入角点Map作为艺术字体的特征表达以提高鲁棒性，并且将角点作为query引入transformer的attention中，使得attention更加精确。同时，作者设计了字符对比loss来学习字符特征，使得同字符的特征能够更加聚集

论文笔记 - Learning Discriminative Model Prediction for Tracking

Posted on 2019-05-12 Edited on 2019-05-19 In 论文笔记

DiMP是Martin大神的新作，这篇作品不同于CVPR2019中大量使用的SiamRPN系列，而是通过针对Siamse系列对于背景和目标的区分性不足的确定，进行改善。在这篇论文中，作者设计了一种具有判别能力的Loss，并且通过end-to-end的训练学习Loss重点的关键参数。结合权重预测模块，对网络进行良好的初始化，最终DiMP在速度和准确性的都有所提高，在VOT2018数据集上，EAO达到0.440，且FPS达到40。