Ir para conteúdo principal

Recursos avançados para construção de Modelos de Previsão

Aprenda sobre as configurações de recursos avançados da etapa “Build Predictive Model” de um experimento DORA.

Atualizado há mais de 2 meses

Visão geral

Na etapa Construir Modelos de Previsão de um experimento DORA, um classificador Random Forest é usado para prever a probabilidade de mineralização dentro de sua Área de Interesse (AOI). Este método de conjunto aproveita múltiplas árvores de decisão treinadas em subconjuntos de dados para melhorar a precisão e a robustez da previsão. As configurações avançadas permitem ajustar parâmetros que afetam o modo como a floresta é treinada, equilibrando entre overfitting e underfitting para otimizar os resultados.

Abaixo está uma análise de cada configuração de recurso avançado.


Simulações Numéricas (Number of Simulations)

O “Number of Simulations” (Número de Simulações) significa o número de vezes que o modelo Random Forest é executado para criar uma variação na previsão.

Cada execução varia os pontos de treinamento e os recursos de entrada por meio de subamostragem, permitindo resultados ligeiramente diferentes em cada execução. Isso ajuda a criar previsões mais generalizadas, incorporando variância inerente ao modelo. O padrão é definido como 10 execuções, mas pode ser aumentado para 100 para explorar ainda mais a variabilidade. Observe que mais execuções exigirão tempos de processamento mais longos.


Saldo Negativo (Negative Balance)

O Saldo Negativo (Negative Balance) impacta a proporção de amostragem entre classes positivas e negativas nos dados de treinamento.

Em Random Forests, um conjunto de dados desequilibrado pode fazer com que o modelo favoreça a classe majoritária. A configuração de Balanço Negativo permite a subamostragem da classe negativa para evitar ajuste excessivo a ela, o que é especialmente relevante em geologia, onde as amostras não mineralizadas geralmente superam as mineralizadas.

A proporção padrão é 1,3, o que significa que se você tivesse 1.000 pontos positivos, a classe negativa seria subamostrada para ter 1.300 pontos. Ajustar isso ajuda a garantir que o modelo preveja com precisão ambas as classes, mesmo quando as amostras positivas são escassas.

Como observação, pode ser interessante ter mais pontos negativos e favorecer ligeiramente a precisão das previsões negativas das classes. Isto irá garantir que as áreas que não são destacadas pela pontuação VPS sejam verdadeiramente desmineralizadas.


Profundidade da árvore (Tree Depth)

A Profundidade da Árvore (Tree Depth) refere-se ao número de etapas em cada árvore de decisão.

A Profundidade da Árvore influencia a complexidade das árvores de decisão. Uma árvore mais profunda pode fornecer previsões mais detalhadas, mas corre o risco de overfitting, tornando o modelo altamente preciso em dados de treinamento, mas menos eficaz em novos dados. O padrão é definido como 24, pois foram inseridas 24 dimensões de incorporação. Aumentar a profundidade pode melhorar a precisão, mas pode levar a um ajuste excessivo (overfitting); reduzi-lo ajuda a prevenir o overfitting e melhora a generalização das previsões do modelo.


Número de Árvores (Number of Trees)

O Número de Árvores é o número de árvores de decisão na floresta do modelo.

Um número maior de árvores geralmente aumenta a precisão da previsão. Porém, se esse número ultrapassar os pontos de treinamento disponíveis, o modelo corre o risco de overfitting. O padrão típico é 300, equilibrando precisão e eficiência. O ajuste do número de árvores permite o ajuste fino com base nos pontos de dados disponíveis e será específico para seu AOI e commodity alvo.


Divisão Mínima (Minimum Split)

A Divisão Mínima (minimum split) é o número de amostras necessárias para dividir um nó da sua árvore em dois ramos.

Este parâmetro controla quando uma árvore de decisão na floresta divide um nó em duas ramificações ou define o nó como classe final. Divisões mínimas mais altas reduzem o risco de overfitting, garantindo que os nós só sejam divididos quando houver dados suficientes para justificá-lo. Isto leva a divisões mais amplas e gerais, melhorando a capacidade de generalização da floresta. A faixa típica é entre 20 e 30 para ajuste balanceado.


Mínimo de Amostras (Minimum Samples)

O “mínimo de amostras” (minimum samples) refere-se ao número de amostras necessárias no final de uma árvore de decisão para uma classificação final.

Este parâmetro define quantas amostras um nó deve ter para formar uma previsão de classe. Em Random Forests, valores baixos podem levar ao overfitting, pois o modelo pode criar regras altamente específicas para os dados. Valores altos, por outro lado, podem resultar em underfitting. Definir esse valor cuidadosamente garante que as árvores individuais da floresta contribuam efetivamente para o desempenho geral do modelo.


Prever profundidade (Predict Depth)

O “Predict Depth” (Prever Profundidade) determina se a saída incluirá ou excluirá a profundidade da previsão.

Se a opção “Predict Depth” (Prever Profundidade) estiver desmarcada, o modelo produzirá apenas previsões bidimensionais. Mantê-lo marcado inclui profundidade na previsão, adicionando uma camada adicional à saída.


Ainda tem dúvidas?

Entre em contato com seu contato dedicado DORA ou envie um e-mail para Support@VRIFY.com para obter mais informações.

Isto respondeu à sua pergunta?