Este artículo fue traducido mediante Google Translate.
Descripción general
En el paso Construir modelos predictivos de un experimento de DORA, se utiliza un clasificador de bosque aleatorio para predecir la probabilidad de mineralización dentro de su área de interés (AOI). Este método de conjunto aprovecha múltiples árboles de decisión entrenados en subconjuntos de datos para mejorar la precisión y solidez de la predicción. La configuración avanzada le permite ajustar los parámetros que afectan la forma en que se entrena el bosque, equilibrando entre sobreajuste y subajuste para optimizar los resultados.
A continuación se muestra un desglose de cada configuración de funciones avanzadas:
Simulaciones numéricas
El número de simulaciones significa el número de veces que se ejecuta el modelo de bosque aleatorio para crear una variación dentro de la predicción.
Cada ejecución varía los puntos de entrenamiento y las características de entrada mediante submuestreo, lo que permite resultados ligeramente diferentes en cada ejecución. Esto ayuda a crear predicciones más generalizadas al incorporar una varianza inherente al modelo. El valor predeterminado está establecido en 10 ejecuciones, pero se puede aumentar a 100 para explorar más la variabilidad. Tenga en cuenta que más ejecuciones requerirán tiempos de procesamiento más prolongados.
Saldo Negativo
El equilibrio negativo afecta la proporción de muestreo entre clases positivas y negativas en los datos de entrenamiento.
En Random Forests, un conjunto de datos desequilibrado puede hacer que el modelo favorezca a la clase mayoritaria. La configuración de Balance Negativo permite el submuestreo de la clase negativa para evitar un ajuste excesivo, lo cual es especialmente relevante en geología, donde las muestras no mineralizadas a menudo superan en número a las mineralizadas. La proporción predeterminada es 1,3, lo que significa que si tuviera 1000 puntos positivos, se submuestrearía la clase negativa para tener 1300 puntos. Ajustar esto ayuda a garantizar que el modelo prediga con precisión ambas clases, incluso cuando las muestras positivas son escasas.
Como nota al margen, puede resultar interesante tener más puntos negativos y favorecer ligeramente la precisión de las predicciones de clase negativas. Esto asegurará que las áreas que no están resaltadas por la puntuación VPS realmente no estén mineralizadas.
Profundidad del árbol
La profundidad del árbol se refiere al número de pasos en cada árbol de decisión.
La profundidad del árbol influye en la complejidad de los árboles de decisión. Un árbol más profundo puede proporcionar predicciones más detalladas, pero corre el riesgo de sobreajustarse, lo que hace que el modelo sea muy preciso en los datos de entrenamiento pero menos efectivo en los datos nuevos. El valor predeterminado está establecido en 24, ya que se han ingresado 24 dimensiones de incrustación.
Aumentar la profundidad puede mejorar la precisión, pero puede provocar un ajuste excesivo; reducirlo ayuda a prevenir el sobreajuste y mejora la generalización de las predicciones del modelo.
Número de árboles
El Número de árboles es el número de árboles de decisión en el bosque del modelo.
Un mayor número de árboles generalmente aumenta la precisión predictiva. Sin embargo, si este número supera los puntos de entrenamiento disponibles, el modelo corre el riesgo de sobreajustarse. El valor predeterminado típico es 300, equilibrando precisión y eficiencia. Ajustar la cantidad de árboles permite realizar ajustes en función de los puntos de datos disponibles y será específico de su AOI y producto objetivo.
División mínima
La división mínima es la cantidad de muestras necesarias para dividir un nodo de su árbol en dos ramas.
Este parámetro controla cuándo un árbol de decisión en el bosque divide un nodo en dos ramas o establece el nodo como clase final. Las divisiones mínimas más altas reducen el riesgo de sobreajuste al garantizar que los nodos solo se divida cuando hay suficientes datos para justificarlo. Esto conduce a divisiones más amplias y generales, mejorando la capacidad del bosque para generalizar. El rango típico está entre 20 y 30 para un ajuste equilibrado.
Muestras mínimas
Las muestras mínimas se refieren al número de muestras necesarias al final de un árbol de decisión para una clasificación final.
Este parámetro establece cuántas muestras debe tener un nodo para formar una predicción de clase. En los bosques aleatorios, los valores bajos pueden provocar un sobreajuste, ya que el modelo puede crear reglas muy específicas para los datos. Por otra parte, los valores elevados pueden provocar un ajuste insuficiente. Establecer este valor cuidadosamente garantiza que los árboles individuales del bosque contribuyan de manera efectiva al rendimiento general del modelo.
Predecir la profundidad
La profundidad de predicción determina si la salida incluirá o excluirá la profundidad de la predicción.
Si la opción Predecir profundidad no está marcada, el modelo producirá solo predicciones bidimensionales. Mantenerlo marcado incluye profundidad en la predicción, agregando una capa adicional a la salida.
¿Aún tienes preguntas?
Comuníquese con su contacto exclusivo de DORA o envíe un correo electrónico a Support@VRIFY.com para obtener más información.