Subir material

Suba sus trabajos a SEDICI, para mejorar notoriamente su visibilidad e impacto

 

Mostrar el registro sencillo del ítem

dc.date.accessioned 2022-12-06T15:15:01Z
dc.date.available 2022-12-06T15:15:01Z
dc.date.issued 2022-10-17
dc.identifier.uri http://sedici.unlp.edu.ar/handle/10915/146934
dc.description.abstract Feature selection (FS) techniques generally require repeatedly training and evaluating models to assess the importance of each feature for a particular task. However, due to the increasing size of currently available databases, distributed processing has become a necessity for many tasks. In this context, the Apache Spark ML library is one of the most widely used libraries for performing classification and other tasks with large datasets. Therefore, knowing both the predictive performance and efficiency of its main algorithms before applying a FS technique is crucial to planning computations and saving time. In this work, a comparative study of four Spark ML classification algorithms is carried out, statistically measuring execution times and predictive power based on the number of attributes from a colon cancer database. Results were statistically analyzed, showing that, although Random Forest and Naive Bayes are the algorithms with the shortest execution times, Support Vector Machine obtains models with the best predictive power. The study of the performance of these algorithms is interesting as they are applied in many different problems, such as classification of pathologies from epigenomic data, image classification, prediction of computer attacks in network security problems, among others. en
dc.description.abstract Las técnicas de selección de características suelen requerir el entrenamiento y la evaluación repetida de modelos con el fin de evaluar la ünportancia de cada característica para una tarea concreta. Sin embargo, debido al aumento del tamaño de las bases de datos disponibles actualmente, el procesamiento distribuido se ha convertido en una necesidad para muchas tareas tareas. En este contexto, la librería Apache Spark ML es una de las más utilizadas para realizar clasificación y otras tareas con grandes conjuntos de datos. Por ello, conocer tanto el rendimiento predictivo como la eficiencia de sus principales algoritmos antes de aplicar una técnica de selección de características es crucial para planificar los cálculos y ahorrar tiempo. En este trabajo se realiza un estudio comparativo de cuatro algoritmos de clasificación de Spark ML, midiendo estadísticamente los tiempos de ejecución y el poder predictivo en función del número de atributos de una base de datos de cáncer de colon. Los resultados fueron analizados estadísticamente, mostrando que, aunque Random Forest y Naive Bayes son los algoritmos con menores tiempos de ejecución, Support Vector Machine obtiene modelos con el mejor poder predictivo. El estudio de la performance de estos algoritmos resulta interesante ya que los mismos son utilizados en problemas muy diversos, como por ejemplo, la clasificación de diferentes patologías a partir de datos epigenómicos, clasificación de imágenes, la predicción de ataques informáticos en problemas de seguridad en redes, entre otros. es
dc.language en es
dc.subject Big Data es
dc.subject Machine Learning es
dc.subject Classification Models es
dc.subject Apache Spark es
dc.subject Spark ML es
dc.subject Wilcoxon Test es
dc.subject Student’s T Test es
dc.subject Big Data es
dc.subject Aprendizaje automático es
dc.subject Modelos de clasificación es
dc.subject Test de Wilcoxon es
dc.subject Test T-Student es
dc.title Statistical analysis of the performance of four Apache Spark ML Algorithms en
dc.title.alternative Análisis estadístico del rendimiento de cuatro algoritmos de Apache Spark ML es
dc.type Articulo es
sedici.identifier.other https://doi.org/10.24215/16666038.22.e14 es
sedici.identifier.issn 1666-6038 es
sedici.creator.person Camele, Genaro es
sedici.creator.person Hasperué, Waldo es
sedici.creator.person Ronchetti, Franco es
sedici.creator.person Quiroga, Facundo Manuel es
sedici.subject.materias Ciencias Informáticas es
sedici.description.fulltext true es
mods.originInfo.place Facultad de Informática es
sedici.subtype Articulo es
sedici.rights.license Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)
sedici.rights.uri http://creativecommons.org/licenses/by-nc/4.0/
sedici.description.peerReview peer-review es
sedici.relation.journalTitle Journal of Computer Science & Technology es
sedici.relation.journalVolumeAndIssue vol. 22, no. 2 es


Descargar archivos

Este ítem aparece en la(s) siguiente(s) colección(ones)

Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0) Excepto donde se diga explícitamente, este item se publica bajo la siguiente licencia Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)