L`exploration de données est la recherche automatisée de modèles dans de grandes quantités de données. Un couple d`aspects de la modélisation de niche rendent l`exploration de données potentiellement utile. Premièrement, comme on sait souvent peu de facteurs déterminant les distributions des espèces, nous ne savons pas quels facteurs seront les plus exacts pour prédire l`espèce. En raison de cette incertitude, nous ne pouvons pas toujours appliquer des moyennes annuelles de température et de précipitations et s`attendre à obtenir un bon modèle. Par exemple, les espèces en eau douce et les milieux marins ne sont pas bien modélisées par les facteurs climatiques annuels, et comme la popularité de la modélisation de niche pousse plus d`entités dans des environnements exotiques sera d`intérêt. L`exploration de données permet de tester un grand nombre de datasets en tant que candidats potentiels pour les modèles. Deuxièmement, il y a beaucoup plus de données disponibles maintenant qu`il n`y en avait — un facteur décrit dans un chapitre suivant. Pour éviter des informations hautement corrélées et redondantes, nous avons effectué des tests de corrélation de Pearson pour chaque combinaison par paires des 24 variables environnementales. 19 paires de variables avec un coefficient de corrélation ≥ 0,9 et/ou variables avec un pourcentage de contribution à l`ajustement du modèle inférieur à 1% ont été éliminés de notre calibrage de modèle. Pour les variables fortement corrélées, lorsque cela est possible, nous préférons les variables extrêmes (c.-à-d., minimum, maximum) sur les variables moyennes, puisque le comportement biologique des vecteurs est fortement affecté par les températures extrêmes saisonnières et les précipitations par rapport aux moyennes. 20 il existe une variété de méthodes mathématiques qui peuvent être utilisées pour l`ajustement, la sélection et l`évaluation des SGBD corrélatiles.
les algorithmes incluent des méthodes de «profil», qui sont des techniques statistiques simples qui utilisent par exemple la distance environnementale aux sites connus d`occurrence comme BIOCLIM [5] [6] et DOMAIN; méthodes de «régression» (par exemple, formes de modèles linéaires généralisés); et les méthodes de «machine learning» telles que l`entropie maximale (MAXENT). Une liste incomplète des algorithmes qui ont été utilisés pour la modélisation de niche comprend: lorsque FP est une erreur de Commission ou faux positif quand une espèce est prédit comme présent par le modèle où il est absent, FN l`erreur omission ou faux négatif quand une espèce est prédit comme absent par le modèle où il est présent, TP le vrai positif quand une espèce est prédit comme présent par le modèle où il est présent, TN le vrai négatif lorsque l`espèce est prédit absent par le modèle où il est absent, et n le nombre total d`observations utilisées pour r la validation. Les objectifs de cette étude étaient 1) de prédire la répartition géographique de P.