En inglés
Automatic Sign Language Translation (SLT) systems can be a great asset to improve the communication with and within deaf communities. Currently, the main issue preventing effective translation models lays in the low availability of labelled data, which hinders the use of modern deep learning models. SLT is a complex problem that involves many subtasks, of which handshape recognition is the most important. We compare a series of models specially tailored for small datasets to improve their performance on handshape recognition tasks. We evaluate Wide-DenseNet and few-shot Prototypical Network models with and without transfer learning, and also using Model-Agnostic Meta- Learning (MAML). Our findings indicate that Wide- DenseNet without transfer learning and Prototipical Networks with transfer learning provide the best results.
Prototypical networks, particularly, are vastly superior when using less than 30 samples, while Wide- DenseNet achieves the best results with more samples.
On the other hand, MAML does not improve performance in any scenario. These results can help to design better SLT models.
En español
Los sistemas de traducción automática de lengua de señas (SLT, por sus siglas en inglés) pueden ser una gran ayuda para mejorar la comunicación con las comunidades sordas así como también entre ellas. Actualmente, el principal obstáculo para el desarrollo de modelos de traducción efectivos es la falta de datos etiquetados, que impide el uso de métodos de aprendizaje automático profundo modernos.La tra- -35- ducción de lengua de señas es un problema complejo que involucra varias subtareas, de las cuales el reconocimiento de la forma de la mano es la más importante.
En este trabajo, comparamos una serie de modelos especialmente adaptados para ser entrenados con pocas muestras en la tarea de reconocer formas de mano. Evaluamos los modelos WideDenseNet y Prototypical Networks, con y sin el uso de transferencia de aprendizaje, y también el model Model-Agnostic Meta-Learning (MAML). Nuestros resultados indican que el modelo Wide-DenseNet sin transferencia de aprendizaje y las Prototypical Networks con transferencia de aprendizaje obtienen los mejores resultados.
Las Prototypical Networks son vastamente superiores cuando se utilizan menos de 30 muestras, mientras que Wide-DenseNet es superior en el resto de los casos.
Por otro lado, MAML, que es un método diseñado específicamente para estos casos, no mejora el desempeño en ningún caso. Estos resultados pueden ayudar a diseñar mejor los componentes de un sistema de traducción de lengua de señas.