algorithmes de Classification – forêt aléatoire

publicités

Introduction

forêt aléatoire est un algorithme D’apprentissage supervisé qui est utilisé à la fois pour la classification et la régression. Mais cependant, il est principalement utilisé pour les problèmes de classification. Comme nous savons qu’une forêt est composée d’arbres et plus d’arbres signifie une forêt plus robuste., De même, l’algorithme de forêt aléatoire crée des arbres de décision sur des échantillons de données, puis obtient la prédiction de chacun d’eux et sélectionne finalement la meilleure solution au moyen d’un vote. C’est une méthode d’ensemble qui est meilleure qu’un arbre de décision unique car elle réduit le sur-ajustement en faisant la moyenne du résultat.

fonctionnement de L’algorithme de forêt aléatoire

Nous pouvons comprendre le fonctionnement de L’algorithme de forêt aléatoire à l’aide des étapes suivantes −

  • Étape 1 − Commencez par sélectionner des échantillons aléatoires à partir d’un ensemble de données donné.,

  • Etape 2 − Ensuite, cet algorithme construit un arbre de décision pour chaque échantillon. Ensuite, il obtiendra le résultat de prédiction de chaque arbre de décision.

  • Étape 3 − Dans cette étape, le vote sera effectué pour chaque résultat prévu.

  • Étape 4 − enfin, sélectionnez le résultat de prédiction le plus voté comme résultat de prédiction final.,

le diagramme suivant illustre son fonctionnement −

implémentation en Python

tout d’abord, commencez par importer les paquets Python nécessaires −

import numpy as npimport matplotlib.pyplot as pltimport pandas as pd

Ensuite, téléchargez le jeu de données iris à partir de son lien Web comme suit −

path = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"

ensuite, nous devons attribuer des noms de colonnes à l’ensemble de données comme suit −

headernames = 

maintenant, nous devons lire l’ensemble de données dans pandas dataframe comme suit −

dataset = pd.read_csv(path, names = headernames)dataset.head()

le prétraitement des données se fera à lignes.,

X = dataset.iloc.valuesy = dataset.iloc.values

ensuite, nous allons diviser les données en train et test split. Le code suivant divisera l’ensemble de données en 70% de données d’entraînement et 30% de données de test −

from sklearn.model_selection import train_test_splitX_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.30)

ensuite, entraînez le modèle à l’aide de la classe RandomForestClassifier de sklearn comme suit −

enfin, nous devons faire une prédiction., Cela peut être fait à l’aide du script suivant −

y_pred = classifier.predict(X_test)

ensuite, imprimez les résultats comme suit −

sortie

avantages et inconvénients de la forêt aléatoire

avantages

Voici les avantages de l’algorithme de forêt aléatoire −

  • il surmonte combinaison des résultats de différents arbres de décision.

  • Les forêts aléatoires fonctionnent bien pour un large éventail d’éléments de données qu’un seul arbre de décision.

  • la forêt aléatoire a moins de variance que l’arbre de décision unique.,

  • forêts Aléatoires sont très flexibles et possèdent une très haute précision.

  • la mise à l’échelle des données ne nécessite pas d’algorithme de forêt aléatoire. Il maintient une bonne précision même après avoir fourni des données sans mise à l’échelle.

  • les algorithmes de forêt aléatoire maintiennent une bonne précision même une grande partie des données est manquante.

inconvénients

Voici les inconvénients de l’algorithme de forêt aléatoire −

  • la complexité est le principal inconvénient des algorithmes de forêt aléatoire.,

  • la Construction de forêts Aléatoires sont beaucoup plus difficile et chronophage que les arbres de décision.

  • plus de ressources de calcul sont nécessaires pour implémenter l’algorithme de forêt aléatoire.

  • Il est moins intuitif dans le cas lorsque nous avons une grande collection d’arbres de décision.

  • le processus de prédiction utilisant des forêts aléatoires prend beaucoup de temps par rapport à d’autres algorithmes.

Annonces

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *