Publications

Juan C. Pérez, Alejandro Pardo, Mattia Soldan, Hani Itani, Juan Leon-Alcazar, Bernard Ghanem (2024). Compressed-Language Models for Understanding Compressed File Formats: a JPEG Exploration. In ArXiv.

Cite Preprint PDF

Dawit Mureja Argaw, Mattia Soldan, Alejandro Pardo, Chen Zhao, Fabian Caba Heilbron, Joon Son Chung, Bernard Ghanem (2024). Towards Automated Movie Trailer Generation. In CVPR.

Cite Preprint PDF

Wayner Barrios, Mattia Soldan, Alberto Mario Ceballos-Arroyo, Fabian Caba Heilbron, Bernard Ghanem (2023). Localizing Moments in Long Video via Multimodal Guidance. In ICCV.

Cite Preprint PDF Supplementary Material Code

Mengmeng Xu, Mattia Soldan, Jialin Gao, Shuming Liu, Juan-Manuel Pérez-Rúa, Bernard Ghanem (2023). Boundary-denoising for video activity localization. In ICLR.

Cite Preprint PDF Code

Kevin Qinghong Lin, Alex Jinpeng Wang, Mattia Soldan, Michael Wray, Rui Yan, Eric Zhongcong Xu, Difei Gao, Rongcheng Tu, Wenzhe Zhao, Weijie Kong, Chengfei Cai, Hongfa Wang, Dima Damen, Bernard Ghanem, Wei Liu, Mike Zheng Shou (2022). Egocentric Video-Language Pretraining. In NeurIPS.

Cite Preprint PDF Code

Mattia Soldan, Alejandro Pardo, Juan Leon-Alcazar, Fabian Caba Heilbron, Chen Zhao, Silvio Giancola, Bernard Ghanem (2021). MAD: A Scalable Dataset for Language Grounding in Videos from Movie Audio Descriptions. In CVPR.

Cite Preprint PDF Code Video

Mattia Soldan, Mengmeng Xu, Sisi Qu, Jesper Tegner, Bernard Ghanem (2021). VLG-Net: Video-Language Graph Matching Network for Video Grounding. In ICCVW.

Cite Preprint PDF Supplementary Material Code Video

Victor Escorcia, Mattia Soldan, Josef Sivic, Bernard Ghanem, Bryan Russell (2019). Finding Moments in Video Collections Using Natural Language. In ArXiv.

Cite Preprint PDF Code Video

Riccardo Bonetto, Mattia Soldan, Alberto Lanaro, Simone Milani, Michele Rossi (2019). Seq2Seq RNN based Gait Anomaly Detection from Smartphone Acquired Multimodal Motion Data. In ArXiv.

Cite Preprint PDF Code