Transformer-based automatic music mood classification using multi-modal framework

Suresh Kumar, Sujeesha Ajithakumari; Rajan, Rajeev

Buscar material

Busque entre los 168426 recursos disponibles en el repositorio

Subir material

Suba sus trabajos a SEDICI, para mejorar notoriamente su visibilidad e impacto

Revistas
→
Journal of Computer Science & Technology
→
Volumen 23 | Número 01

Mostrar el registro sencillo del ítem

dc.date.accessioned	2023-04-25T18:00:47Z
dc.date.available	2023-04-25T18:00:47Z
dc.date.issued	2023-04
dc.identifier.uri	http://sedici.unlp.edu.ar/handle/10915/152120
dc.description.abstract	According to studies, music affects our moods, and we are also inclined to choose a theme based on our current moods. Audio-based techniques can achieve promising results, but lyrics also give relevant information about the moods of a song which may not be present in the audio part. So a multi-modal with both textual features and acoustic features can provide enhanced accuracy. Sequential networks such as long short-term memory networks (LSTM) and gated recurrent unit networks (GRU) are widely used in the most state-of-the-art natural language processing (NLP) models. A transformer model uses selfattention to compute representations of its inputs and outputs, unlike recurrent unit networks (RNNs) that use sequences and transformers that can parallelize over input positions during training. In this work, we proposed a multi-modal music mood classification system based on transformers and compared the system’s performance using a bi-directional GRU (Bi-GRU)- based system with and without attention. The performance is also analyzed for other state-of-the-art approaches. The proposed transformer-based model acquired higher accuracy than the Bi-GRU-based multimodal system with single-layer attention by providing a maximum accuracy of 77.94%.	en
dc.description.abstract	Según los estudios, la música afecta nuestro estado de ánimo y estamos también inclinados a elegir un tema basado en nuestros estados de ánimo actuales. basado en audio técnicas pueden lograr resultados prometedores, pero las letras también dan información sobre los estados de ánimo de una canción que puede no estar presente en la parte de audio Por lo tanto, un multimodal con características tanto textuales como acústicas puede proporcionar una mayor precisión. Redes secuenciales tales ya que las redes de memoria a -18- corto plazo (LSTM) y las redes de unidades recurrentes (GRU) son ampliamente utilizadas en el procesamiento de lenguaje natural (NLP) más avanzado. modelos Un modelo de transformador utiliza la atención propia para calcular las representaciones de sus entradas y salidas, a diferencia de las redes de unidades recurrentes (RNN) que utilizan secuencias y transformadores que pueden paralelizarse sobre las posiciones de entrada durante el entrenamiento. En este trabajo, propusimos un sistema de clasificación de estados de ánimo musicales multimodal basado en transformadores y comparamos el rendimiento del sistema usando un sistema bidireccional basado en GRU (Bi-GRU) con y sin atención. El rendimiento también se analiza para otros enfoques de vanguardia. El modelo basado en transformadores propuesto adquirió mayor precisión que el sistema multimodal basado en Bi-GRU con atención monocapa al proporcionar una precisión máxima del 77,94%.	es
dc.language	en	es
dc.subject	BERT	es
dc.subject	Bidirectional GRU	es
dc.subject	Music	es
dc.subject	Selfattention	es
dc.subject	Transformer	es
dc.subject	Música	es
dc.subject	Autoatención	es
dc.subject	Transformador	es
dc.title	Transformer-based automatic music mood classification using multi-modal framework	en
dc.title.alternative	Clasificación automática del estado de ánimo de la música basada en transformadores utilizando un marco multimodal	es
dc.type	Articulo	es
sedici.identifier.other	https://doi.org/10.24215/16666038.23.e02	es
sedici.identifier.issn	1666-6038	es
sedici.creator.person	Suresh Kumar, Sujeesha Ajithakumari	es
sedici.creator.person	Rajan, Rajeev	es
sedici.subject.materias	Ciencias Informáticas	es
sedici.description.fulltext	true	es
mods.originInfo.place	Facultad de Informática	es
sedici.subtype	Articulo	es
sedici.rights.license	Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)
sedici.rights.uri	http://creativecommons.org/licenses/by-nc/4.0/
sedici.description.peerReview	peer-review	es
sedici.relation.journalTitle	Journal of Computer Science & Technology	es
sedici.relation.journalVolumeAndIssue	vol. 23, no. 1	es

Descargar archivos

Documento completo
Descargar archivo (13.15Mb) - PDF

Este ítem aparece en la(s) siguiente(s) colección(ones)

Journal of Computer Science & Technology → Volumen 23 | Número 01

Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)

Excepto donde se diga explícitamente, este item se publica bajo la siguiente licencia Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)

Iniciar sesión