🧠 研究方向

主要关注 Vision-Language Pre-training (VLP) 模型的研究。

核心论文复现

  1. ALBEF: Align before Fuse. 学习它是如何通过对比学习对齐图像和文本特征的。
  2. LAMP: 我的重点研究对象,分析其在情感分析任务上的表现。
  3. PEKD: 知识蒸馏在多模态中的应用。

实验记录

  • 环境: PyTorch + NVIDIA 3090/4090
  • 难点: 多模态数据的对齐与融合策略
  • 指标: Accuracy, F1-Score

保持对 SOTA (State Of The Art) 的敏感度。