Statistical analysis of the performance of four Apache Spark ML Algorithms

Camele, Genaro; Hasperué, Waldo; Ronchetti, Franco; Quiroga, Facundo Manuel

Buscar material

Busque entre los 168506 recursos disponibles en el repositorio

Subir material

Suba sus trabajos a SEDICI, para mejorar notoriamente su visibilidad e impacto

Revistas
→
Journal of Computer Science & Technology
→
Volumen 22 | Número 02

Mostrar el registro sencillo del ítem

dc.date.accessioned	2022-12-06T15:15:01Z
dc.date.available	2022-12-06T15:15:01Z
dc.date.issued	2022-10-17
dc.identifier.uri	http://sedici.unlp.edu.ar/handle/10915/146934
dc.description.abstract	Feature selection (FS) techniques generally require repeatedly training and evaluating models to assess the importance of each feature for a particular task. However, due to the increasing size of currently available databases, distributed processing has become a necessity for many tasks. In this context, the Apache Spark ML library is one of the most widely used libraries for performing classification and other tasks with large datasets. Therefore, knowing both the predictive performance and efficiency of its main algorithms before applying a FS technique is crucial to planning computations and saving time. In this work, a comparative study of four Spark ML classification algorithms is carried out, statistically measuring execution times and predictive power based on the number of attributes from a colon cancer database. Results were statistically analyzed, showing that, although Random Forest and Naive Bayes are the algorithms with the shortest execution times, Support Vector Machine obtains models with the best predictive power. The study of the performance of these algorithms is interesting as they are applied in many different problems, such as classification of pathologies from epigenomic data, image classification, prediction of computer attacks in network security problems, among others.	en
dc.description.abstract	Las técnicas de selección de características suelen requerir el entrenamiento y la evaluación repetida de modelos con el fin de evaluar la ünportancia de cada característica para una tarea concreta. Sin embargo, debido al aumento del tamaño de las bases de datos disponibles actualmente, el procesamiento distribuido se ha convertido en una necesidad para muchas tareas tareas. En este contexto, la librería Apache Spark ML es una de las más utilizadas para realizar clasificación y otras tareas con grandes conjuntos de datos. Por ello, conocer tanto el rendimiento predictivo como la eficiencia de sus principales algoritmos antes de aplicar una técnica de selección de características es crucial para planificar los cálculos y ahorrar tiempo. En este trabajo se realiza un estudio comparativo de cuatro algoritmos de clasificación de Spark ML, midiendo estadísticamente los tiempos de ejecución y el poder predictivo en función del número de atributos de una base de datos de cáncer de colon. Los resultados fueron analizados estadísticamente, mostrando que, aunque Random Forest y Naive Bayes son los algoritmos con menores tiempos de ejecución, Support Vector Machine obtiene modelos con el mejor poder predictivo. El estudio de la performance de estos algoritmos resulta interesante ya que los mismos son utilizados en problemas muy diversos, como por ejemplo, la clasificación de diferentes patologías a partir de datos epigenómicos, clasificación de imágenes, la predicción de ataques informáticos en problemas de seguridad en redes, entre otros.	es
dc.language	en	es
dc.subject	Big Data	es
dc.subject	Machine Learning	es
dc.subject	Classification Models	es
dc.subject	Apache Spark	es
dc.subject	Spark ML	es
dc.subject	Wilcoxon Test	es
dc.subject	Student’s T Test	es
dc.subject	Big Data	es
dc.subject	Aprendizaje automático	es
dc.subject	Modelos de clasificación	es
dc.subject	Test de Wilcoxon	es
dc.subject	Test T-Student	es
dc.title	Statistical analysis of the performance of four Apache Spark ML Algorithms	en
dc.title.alternative	Análisis estadístico del rendimiento de cuatro algoritmos de Apache Spark ML	es
dc.type	Articulo	es
sedici.identifier.other	https://doi.org/10.24215/16666038.22.e14	es
sedici.identifier.issn	1666-6038	es
sedici.creator.person	Camele, Genaro	es
sedici.creator.person	Hasperué, Waldo	es
sedici.creator.person	Ronchetti, Franco	es
sedici.creator.person	Quiroga, Facundo Manuel	es
sedici.subject.materias	Ciencias Informáticas	es
sedici.description.fulltext	true	es
mods.originInfo.place	Facultad de Informática	es
sedici.subtype	Articulo	es
sedici.rights.license	Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)
sedici.rights.uri	http://creativecommons.org/licenses/by-nc/4.0/
sedici.description.peerReview	peer-review	es
sedici.relation.journalTitle	Journal of Computer Science & Technology	es
sedici.relation.journalVolumeAndIssue	vol. 22, no. 2	es

Descargar archivos

Documento completo
Descargar archivo (810.2Kb) - PDF

Este ítem aparece en la(s) siguiente(s) colección(ones)

Journal of Computer Science & Technology → Volumen 22 | Número 02

Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)

Excepto donde se diga explícitamente, este item se publica bajo la siguiente licencia Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)

Iniciar sesión