KingsmanVince @ KingsmanVince @kbin.social

Posts

12
Comments

4
Joined

2 yr. ago

Machine Learning @kbin.social

KingsmanVince @kbin.social

2y ago

MM-SHAP: A Performance-agnostic Metric for Measuring Multimodal Contributions in Vision and Language Models & Tasks

aclanthology.org /2023.acl-long.223/

Machine Learning @kbin.social

KingsmanVince @kbin.social

2y ago

Demystifying CLIP Data

arxiv.org /abs/2309.16671

2y ago

PaLI-3 Vision Language Models: Smaller, Faster, Stronger

Jump

indeed it would be great if the authors did so. I personally found some non-official implementations:

2y ago

PaLI-3 Vision Language Models: Smaller, Faster, Stronger

Jump

Machine Learning @kbin.social

KingsmanVince @kbin.social

2y ago

PaLI-3 Vision Language Models: Smaller, Faster, Stronger

arxiv.org /abs/2310.09199

Machine Learning @kbin.social

KingsmanVince @kbin.social

2y ago

MiniGPT-v2: large language model as a unified interface for vision-language multi-task learning

arxiv.org /abs/2310.09478

Machine Learning @kbin.social

KingsmanVince @kbin.social

2y ago

Scaling Vision-Language Models with Sparse Mixture of Experts

arxiv.org /abs/2303.07226

Machine Learning @kbin.social

KingsmanVince @kbin.social

2y ago

Hydra-MoE: A new class of Open-Source Mixture of Experts

github.com /SkunkworksAI/hydra-moe

Machine Learning @kbin.social

KingsmanVince @kbin.social

2y ago

Bridging the Gap: Exploring the Capabilities of Bridge-Architectures for Complex Visual Reasoning Tasks

arxiv.org /abs/2307.16395

Machine Learning @kbin.social

KingsmanVince @kbin.social

2y ago

Foundational Models Defining a New Era in Vision: A Survey and Outlook

arxiv.org /abs/2307.13721

2y ago

Unifying Cross-Lingual and Cross-Modal Modeling Towards Weakly Supervised Multilingual Vision-Language Pre-training

Jump

https://github.com/FudanDISC/weakly-supervised-mVLP/tree/master

Machine Learning @kbin.social

KingsmanVince @kbin.social

2y ago

Unifying Cross-Lingual and Cross-Modal Modeling Towards Weakly Supervised Multilingual Vision-Language Pre-training

aclanthology.org /2023.acl-long.327/

2y ago

MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks

Jump

KingsmanVince @ KingsmanVince @kbin.social Posts 12Comments 4Joined 2 yr. ago

KingsmanVince @ KingsmanVince @kbin.social

Posts

12
Comments

4
Joined

2 yr. ago