Zeker, LLM’s (Large Language Models) kunnen worden gebruikt voor geïntegreerde visie- en taaltaken door een combinatie van natuurlijke taalverwerking (NLP) en computer vision technieken te gebruiken. Deze geïntegreerde aanpak maakt het mogelijk om complexe multimodale problemen op te lossen die zowel visuele als tekstuele informatie vereisen.
Een technisch hoogtepunt van hoe dit wordt bereikt is door het gebruik van architecturen zoals CLIP (Contrastive Language–Image Pre-Training) ontwikkeld door OpenAI. CLIP leert visuele concepten rechtstreeks van natuurlijke taalbeschrijvingen. Dit betekent dat het model tegelijkertijd kan omgaan met afbeeldingen en tekst, waardoor het bijvoorbeeld mogelijk is om een afbeelding te beschrijven of om een afbeelding te vinden die bij een bepaalde tekst past (Radford et al., 2021).
Een andere benadering is het gebruik van multimodale transformer modellen zoals VisualBERT of VilBERT. VisualBERT voegt visuele input toe aan het BERT model door beeldkenmerken toe te voegen aan woordtokens en deze gezamenlijk door de lagen van de transformer te voeren. De voordelen van deze aanpak is dat het in staat is om relaties over modaliteiten heen te leren (Li et al., 2020).
VilBERT (Vision-and-Language BERT) breidt de BERT architectuur uit met aparte beeld en taal verwerkingspaden, die pas op een later stadium van verwerking worden samengevoegd. Dit maakt het mogelijk om gedetailleerde informatie uit beide modaliteiten te extraheren voordat integratie plaatsvindt. VilBERT is in staat om taken uit te voeren zoals visuele vraag beantwoording, waarbij een vraag over een afbeelding wordt gesteld en het systeem een tekstuele of visuele respons genereert (Lu et al., 2019).
Een praktisch voorbeeld van het gebruik van LLM’s voor visie- en taaltaken is in de gezondheidszorg, waar dergelijke modellen kunnen worden gebruikt voor het annoteren van medische beelden met beschrijvende tekst die diagnose en behandelingsopties biedt. Dit kan een radioloog helpen door automatisch ruwe beelden te voorzien van een eerste analyse (Jamaludin et al., 2017).
In de e-commerce sector kunnen geïntegreerde visie- en taalmodellen bijdragen aan verbeterde productzoektochten. Consumenten zouden een afbeelding van een product kunnen uploaden en een model zoals CLIP zou de afbeelding kunnen analyseren en een beschrijving genereren of vergelijkbare productaanbevelingen doen (Li et al., 2021).
Om deze visie- en taaltaken effectief uit te kunnen voeren, moeten LLM’s worden getraind op een brede en diverse dataset die zowel visuele als tekstuele informatie bevat. Populaire datasets omvatten COCO (Common Objects in Context) en Visual Genome, die beide een groot aantal afbeeldingen en bijbehorende beschrijvingen bieden (Lin et al., 2014; Krishna et al., 2017).
De capaciteiten van LLM’s om dergelijke geïntegreerde taken uit te voeren zijn indrukwekkend en worden ondersteund door voortdurend onderzoek en verbeteringen in machine learning-technieken.
Bronnen:
- Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., … & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. arXiv preprint arXiv:2103.00020.
- Li, L. H., Yatskar, M., Yin, D., Hsieh, C. J., & Chang, K. W. (2019). VisualBERT: A Simple and Performant Baseline for Vision and Language. arXiv preprint arXiv:1908.03557.
- Lu, J., Batra, D., Parikh, D., & Lee, S. (2019). VilBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks. arXiv preprint arXiv:1908.02265.
- Jamaludin, A., Kadir, T., & Zisserman, A. (2017). SpineNet: Automated classification and evidence-based learning of medical images. Medical image analysis, 41, 1-13.
- Li, Y., Wang, N., & Shi, J. (2020). End-to-End Object Detection with Transformers. In European Conference on Computer Vision (pp. 213-229). Springer, Cham.
- Lin, T. Y., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., … & Zitnick, C. L. (2014). Microsoft COCO: Common objects in context. In European conference on computer vision (pp. 740-755). Springer.
- Krishna, R., Zhu, Y., Groth, O., Johnson, J., Hata, K., Kravitz, J., … & Fei-Fei, L. (2017). Visual genome: Connecting language and vision using crowdsourced dense image annotations. International Journal of Computer Vision, 123, 32-73.