Logo
Benutzer: Gast  Login
Autoren:
Rösch, Philipp J.; Libovický, Jindřich 
Dokumenttyp:
Konferenzbeitrag / Conference Paper 
Titel:
Probing the Role of Positional Information in Vision-Language Models 
Titel Konferenzpublikation:
Findings of the Association for Computational Linguistics: NAACL 2022 
Konferenztitel:
Conference of the North American Chapter of the Association for Computational Linguistics (2022, Seattle, WA) 
Tagungsort:
Seattle, WA, United States 
Jahr der Konferenz:
2022 
Datum Beginn der Konferenz:
10.07.2022 
Datum Ende der Konferenz:
15.07.2022 
Verlag:
Association for Computational Linguistics (ACL) 
Jahr:
2022 
Seiten von - bis:
1031-1041 
Sprache:
Englisch 
Abstract:
In most Vision-Language models (VL), the understanding of the image structure is enabled by injecting the position information (PI) about objects in the image. In our case study of LXMERT, a state-of-the-art VL model, we probe the use of the PI in the representation and study its effect on Visual Question Answering. We show that the model is not capable of leveraging the PI for the image-text matching task on a challenge set where only position differs. Yet, our experiments with probing confirm...    »
 
Fakultät:
Fakultät für Elektrotechnik und Technische Informatik 
Institut:
ETTI 2 - Institut für Verteilte Intelligente Systeme 
Professur:
Oswald, Norbert 
Open Access ja oder nein?:
Ja / Yes 
Art der OA-Lizenz:
CC BY 4.0 
Sonstige Angaben:
https://www.unibw.de/vis-en/naacl2022