En español
Ante la gran cantidad de datos astronómicos disponibles, resulta necesario implementar nuevas estrategias para su análisis. Por ello, las técnicas de aprendizaje automático, en particular las que consisten en aprendizaje supervisado, resultan una herramienta muy útil para tal fin. Para la implementación de estas estrategias es fundamental contar con un conjunto de datos (data set) etiquetado de manera confiable con el cual entrenar y evaluar el modelo. En este trabajo presentamos un nuevo data set compuesto por las magnitudes u, g, r, Ha, i, J, H, K, WT y W2 para 3 365 790 estrellas de las cuales 3 374 fueron clasificadas en la literatura como Be, 13 214 clasificadas como de tipo espectral B y 2 948 600 con la presencia de emisión en Ha. De estas últimas, solamente 2 758 estrellas fueron reportadas como Be.
En inglés
Given the large amount of astronomical data available, it is necessary to implement new strategies for its analysis. For this reason, machine learning techniques, particularly those that consist of supervised learning, are a fundamental tool for this purpose. For the implementation of these strategies it is essential to have a reliably labeled data set with which to train and evaluate the model. In this work we present a new data set composed of the magnitudes u, g, r, Ha, i, J, H, K,W1 and W2 for 3 365 790 stars, of which 3 374 were classified in the literature as Be, 13 214 classified as spectral type B and 2 948 600 with the presence of emission in Ha. Of the latter, only 2 758 stars were reported as Be.