Par : Uchenna Mgbaja, Md Mahbub Mishu, Maryam Zamani, Sumitra Balamurugan et Aya Heba; NorQuest College
Selon le Recensement de 2021, il y avait 5 millions de ménages locataires au Canada, ce qui signifie qu'environ le tiers des ménages canadiens sont locataires. Une grande partie de cette activité de location se fait toutefois dans le secteur privé, ce qui donne lieu à des données limitées et incohérentes. Pour combler ces lacunes dans les connaissances, nous avons acquis, traité, analysé et représenté visuellement les annonces immobilières de la partie prenante, le Community Data Program (en anglais seulement), pour l'Ontario. Cet ensemble de données offre de nouvelles perspectives sur les tendances spatiales des marchés du logement métropolitain et des petites communautés, qui dépassent les autres sources disponibles en détail et en précision. Des villes comme Toronto, Brampton et Mississauga, par exemple, affichent des prix de location élevés par pied carré, ce qui témoigne de la dynamique économique de la région. Nous avons également analysé des régions de l'Ontario où la population est inférieure à 10 000 habitants.
La présente étude vise à répondre à trois objectifs principaux :
- Interpréter les tendances des ensembles de données et leurs répercussions sur le marché du logement.
- Appliquer des modèles d'apprentissage automatique aux ensembles de données afin que le modèle puisse prévoir les tendances futures.
- Déployer le meilleur modèle.
Méthodologie
Nous avons obtenu de notre client un ensemble de données rigoureuses, lequel comprenait 18 colonnes donnant des précisions sur les régions, le nombre de chambres, les adresses et d'autres renseignements pertinents.
Pour extraire des renseignements précieux, nous avons utilisé des techniques de codage et des représentations visuelles, comme des tableaux et des graphiques. Cela nous a aidés à repérer avec succès des modèles essentiels dans la dynamique du logement, en particulier en cernant les régions présentant des différences notables dans les dépenses de logement et la densité des annonces.
L'analyse exploratoire des données
Pour l'analyse exploratoire des données (AED), nous avons sélectionné de petites collectivités en fonction du dénombrement de leur population. Cette approche nous a permis de mieux comprendre la dynamique du logement dans ces régions précises. La colonne « Prix » de notre ensemble de données contenait toutefois des incohérences, comme des signes de dollar et des virgules, ce qui la rendait difficile à analyser. Pour enrayer ce problème, nous avons supprimé les caractères spéciaux et converti la colonne au format numérique. Cela nous a permis d'effectuer des opérations numériques et de visualiser les données efficacement.
Ensuite, nous avons établi que certaines données des colonnes « Chambres » et « Salle de bain » contenaient des entrées complexes, comme « 2 + Den » (2 + pièce de détente), alors que la fonction regex ne tenait compte que des nombres, en ignorant la « Den » « pièce de détente » supplémentaire. Cela a conduit à des inexactitudes dans la représentation du nombre de chambres à coucher et de salles de bains. Pour résoudre ce problème, nous avons créé une colonne temporaire pour cerner les entrées « + Den » (+ pièce de détente ), converti « Chambres » et « Salles de bains » en valeurs numériques et ajusté les chiffres pour tenir compte de la partie « Den » (pièce de détente). Par la suite, nous avons supprimé la colonne temporaire, ce qui garantit un nombre précis de chambres pour chaque annonce immobilière.
La colonne « Taille » contenait des valeurs non numériques, comme « Non disponible », ce qui a entraîné des erreurs lors de la tentative de conversion de la colonne en type de données flottantes. Pour résoudre ce problème, nous avons remplacé les valeurs non numériques comme « Non disponible » par « NaN » (Not a Number, c'est-à-dire « pas un nombre ») en utilisant la fonction replace() de pandas.
Les entrées dans la colonne « Taille » qui étaient inférieures à 200 ou supérieures à 9 000 pieds carrés étaient considérées comme des données aberrantes et n'étaient pas logiques dans le contexte de la taille des propriétés. Si elles n'étaient pas traitées de manière appropriée, ces données aberrantes pouvaient fausser les résultats de l'analyse et de la visualisation.
Carte géographique des annonces immobilières en Ontario
Dans la présente section, nous avons utilisé le Looker Studio de Google pour générer des graphiques, des tableaux, des cartes, etc., ainsi que Plotly Express de Python pour les visualisations de l'ensemble des données.
Nous avons créé une carte de dispersion (présentée à la figure 1 ci-dessus) à l'aide de Plotly Express. Chaque point sur la carte représente une annonce immobilière. Nous avons choisi un style OpenStreetMap afin que la présentation soit plus claire et plus simple.
Histogramme représentant la répartition des prix de location
L'histogramme (présenté à la figure 2) permet aux utilisateurs de connaître la répartition des prix des loyers. Pour nous assurer que la visualisation est intuitive, nous avons conservé des étiquettes claires pour les axes et le titre et fourni une explication concise de ce que représente l'histogramme.
Diagramme de dispersion représentant la taille et le prix associé au nombre de chambres
Le diagramme de dispersion (présenté à la figure 3) a permis aux utilisateurs de comprendre la relation entre la taille, le prix et le nombre de chambres à coucher dans un immeuble locatif. Les utilisateurs peuvent dégager des tendances, comme la variation des prix en fonction de la taille et du nombre de chambres.
Diagramme à surface représentant la répartition des prix en fonction du nombre de chambres
Le diagramme à surface (présenté à la figure 4) permet aux utilisateurs de dégager les tendances de la répartition des prix en fonction du nombre de chambres. L'analyse des données aberrantes peut fournir des renseignements sur les propriétés exceptionnelles et les tendances du marché, ce qui aide les utilisateurs à prendre des décisions éclairées concernant les propriétés locatives ou d'investissement.
Diagramme à barres pour les 10 régions les plus dispendieuses et les plus abordables de l'Ontario
Les diagrammes à barres (présentés aux figures 5 et 6) donnent un aperçu de la répartition des prix par région, mettant en évidence les 10 régions les plus dispendieuses et les plus abordables. Les utilisateurs peuvent dégager des tendances, comme les disparités régionales dans les prix des loyers, et prendre des décisions éclairées en ciblant les régions où les prix moyens sont plus bas pour les occasions d'investissement.
Le diagramme circulaire donne un aperçu de la répartition des types de propriétés
Le diagramme circulaire (présenté à la figure 7) donne un aperçu de la répartition des types de propriétés sur le marché locatif. Les utilisateurs peuvent cerner le type de propriété le plus répandu, comme les appartements, qui représente le pourcentage le plus élevé (37,6 %). Ces renseignements peuvent aider les utilisateurs à prendre des décisions éclairées, comme choisir les meilleurs types de propriétés pour les occasions d'investissement ou de location.
L'application de l'apprentissage automatique aux données nettoyées
Pour prédire les prix de location, nous avons appliqué des modèles d'apprentissage automatique (AA) à notre ensemble de données. Nos données ne sont pas des séries chronologiques, car les annonces couvrent différentes dates, sans période de référence constante. Nous nous sommes plutôt concentrés sur des modèles de régression prédictifs afin de prédire les prix des loyers, qui est notre variable cible. Ces modèles nous ont aidés à analyser et à prédire les mouvements de prix en fonction de diverses caractéristiques comme l'emplacement, le type de propriété et les commodités.
Nous avons entraîné divers modèles d'apprentissage automatique, comme il est indiqué ci-dessous.
- Les modèles de régression
- Tout d'abord, nous avons divisé l'ensemble de données en ensembles de données d'entraînement et de test : 80 % pour l'entraînement et 20 % pour les tests. Cette approche a permis de s'assurer que le modèle était entraîné sur une partie importante des données, tout en conservant une partie importante pour les tests.
- Ensuite, nous avons entraîné le modèle à l'aide de modèles de régression (le modèle de Random Forest, le modèle de régression linéaire et la méthode de Gradient Boosting) pour prédire les prix de location, qui étaient notre variable ou notre étiquette cible.
- L'étape suivante consistait à effectuer une validation croisée. Pour ce faire, nous avons utilisé la technique de validation croisée « k-fold » pour évaluer les performances et la généralisation du modèle.
- Enfin, nous avons évalué les modèles en fonction des mesures de performance suivantes :
- La racine de l'écart quadratique moyenne (REQM) : Cette mesure métrique permet de mesurer l'ampleur moyenne des erreurs entre les valeurs prédites et les valeurs réelles. Plus la valeur de REQM est faible, meilleur est le modèle.
- Le score du R au carré (R2) : Cette mesure métrique indique dans quelle mesure les prédictions du modèle de régression s'adaptent aux données réelles. Plus cette valeur est élevée, meilleure est la prédiction du modèle.
- Les modèles de classification
Pour améliorer notre analyse, nous avons transformé le problème de régression en un problème de classification en fixant des seuils de prix. Plus précisément, nous avons classé les prix de location en trois groupes distincts : bas, moyen et élevé. Les seuils ont été choisis en fonction de la répartition des prix dans l'ensemble de données, en établissant des tranches allant de 0 à 1 500, de 1 500 à 2 500 et de plus de 2 500. Cette catégorisation nous a permis d'appliquer des modèles de classification, comme Random Forest (RF) et le modèle de l'arbre de décision, pour prédire les catégories de prix de location. Cette approche est soumise au point de vue de l'utilisateur sur ce qui est considéré comme un prix élevé ou bas.
Nous avons également élaboré des modèles de classification pour prédire le type de propriété locative en fonction de caractéristiques données. L'objectif était de recommander un type de propriété approprié en fonction des spécifications de l'utilisateur.
Les résultats
Les modèles de régression
Après avoir entraîné et évalué plusieurs modèles d'apprentissage automatique, il a été déterminé que, sur la base d'une évaluation comparative, le modèle de régression linéaire présentait des performances supérieures à celles des autres modèles de régression.
Nom du modèle | REQM | R2 |
---|---|---|
Régresseur Random Forest | 483,05 | 0,6120 |
Régression linéaire | 467,54 | 0,6568 |
Gradient Boosting | 488,56 | 0,6372 |
Description - Tableau 1 : Performances des modèles AA.
Ce tableau établi une comparaison des performances de trois modèles d'apprentissage automatique (AA) différents à l'aide de deux mesures métriques : la racine de l'écart quadratique moyenne (REQM) et R2 (le coefficient de détermination). Le tableau répertorie les modèles suivants : le régresseur Random Forest, la régression linéaire et Gradient boosting. Les valeurs de la racine de l'écart quadratique moyenne (REQM) et du R2 sont fournies pour chaque modèle afin d'évaluer leur précision et leur pouvoir prédictif, respectivement. Le modèle de régression linéaire présente la REQM la plus faible à 467,54 et la valeur du R2 la plus élevée à 0,6568, ce qui indique qu'il est plus performant que les autres.
Les modèles de classification
Le tableau ci-dessous fournit une comparaison détaillée de trois modèles d'apprentissage automatique, à savoir la régression logistique, l'arbre de décision et Random Forest, utilisés pour classer les prix des propriétés locatives en différentes catégories en fonction de leurs caractéristiques. Les mesures prises en compte pour la comparaison sont les scores d'exactitude, de précision et de rappel obtenus par chaque modèle. Ces mesures sont cruciales pour évaluer l'efficacité et la fiabilité des modèles de prédiction des prix des logements locatifs.
Nom du modèle | Exactitude | Précision | Rappel |
---|---|---|---|
Régression logistique | 0,73 | 0,81 | 0,81 |
Arbre de décision | 0,73 | 0,77 | 0,80 |
Random Forest | 0,74 | 0,79 | 0,80 |
Description - Tableau 2 : les performances de différents modèles d'apprentissage automatique dans la classification des prix des logements.
Ce tableau met en évidence les performances de différents modèles d'apprentissage automatique dans la classification des prix des logements. Le modèle de Random Forest a dépassé les autres modèles en ce qui concerne la précision, atteignant un score de 0,74. Les modèles de régression logistique et d'arbre de décision ont atteint le même score de précision de 0,73. En ce qui concerne la précision et la mémorisation, le modèle de régression logistique a obtenu le score le plus élevé de 0,81 : il serait donc légèrement meilleur pour déterminer les cas vraiment positifs. Cette comparaison fournit des renseignements précieux sur l'efficacité de ces modèles pour prédire les prix des logements locatifs et aide à sélectionner le modèle le plus approprié pour cette tâche.
Les méthodes de sélection des caractéristiques : les valeurs de p
Le concept de valeurs de p est fondamental en analyse statistique pour déterminer la signification des résultats observés. Dans les tests d'hypothèses, en particulier dans le contexte de la sélection de caractéristiques pour les modèles d'AA, les valeurs de p aident à évaluer la solidité de la preuve par rapport à une hypothèse nulle. Une valeur de p faible indique généralement que les données observées sont peu probables en supposant que l'hypothèse nulle est vraie, ce qui conduit au rejet de l'hypothèse nulle en faveur d'une autre hypothèse.
Dans les résultats présentés ci-dessus, le cadre de données présente les noms des caractéristiques à côté de leurs valeurs de p correspondantes dérivées du test F de l'ANOVA. Cette technique statistique vise à évaluer l'importance des caractéristiques individuelles concernant la variable cible « Prix ». Une valeur de p plus faible signifie une association plus forte entre la caractéristique et la variable cible, ce qui indique une probabilité plus élevée que la caractéristique soit pertinente pour prédire les prix des logements.
Fait à noter, des caractéristiques comme « Hydro_N », « Hydro_O », « Taille » et divers indicateurs géographiques présentent des valeurs de p extrêmement faibles, ce qui est à l'origine de leur incidence considérable sur la détermination des prix des logements.
La méthode de corrélation
L'analyse de corrélation est une technique statistique utilisée pour mesurer la force et la direction de la relation linéaire entre deux variables. Dans le contexte de la sélection de caractéristiques pour l'apprentissage automatique, l'analyse de corrélation permet de cerner les caractéristiques fortement corrélées à la variable cible et ayant une incidence considérable sur la prédiction de la cible. Un coefficient de corrélation est compris entre -1 et 1, où :
- un coefficient de corrélation de 1 indique une relation linéaire positive parfaite, ce qui signifie que, lorsqu'une variable augmente, l'autre variable augmente également proportionnellement;
- un coefficient de corrélation de -1 indique une relation linéaire négative parfaite, ce qui signifie que, lorsqu'une variable augmente, l'autre variable diminue proportionnellement;
- un coefficient de corrélation proche de 0 sous-entend peu ou pas de relation linéaire entre les variables.
Dans les résultats ci-dessus, les coefficients de corrélation entre le « prix » (variable cible) et d'autres caractéristiques sont énumérés. Les « chambres » et les « salles de bains » ont des corrélations positives relativement élevées avec le « prix » (0,63 et 0,63, respectivement), ce qui indique que, lorsque le nombre de chambres ou de salles de bains dans une propriété augmente, le prix a tendance à augmenter également.
« Eau_O » et « Eau_N » ont le même coefficient de corrélation de 0,35, le « prix », ce qui donne à penser que la présence ou l'absence d'accès à l'eau pourrait influencer les prix des logements dans une certaine mesure.
Des caractéristiques comme « CSDNAME_South Frontenac », « CSDNAME_Norwich » et « CSDNAME_Chatsworth » ont de très faibles corrélations positives avec le « prix » (près de 0), ce qui indique de faibles relations linéaires entre ces indicateurs géographiques et les prix des propriétés. Nous avons pris des décisions éclairées pour ne conserver que les caractéristiques géographiques les plus pertinentes en fonction de l'expertise du domaine. Ce processus méticuleux de sélection des caractéristiques a contribué à un modèle d'apprentissage automatique plus rigoureux et plus efficace pour prédire les prix des propriétés.
Création de l'application Perspectives sur le logement locatif
La création de l'application Perspectives sur le logement locatif représente un effort global pour tirer parti des techniques de la science des données dans l'analyse des données sur les logements locatifs. Cette section présente le processus d'élaboration, les principales caractéristiques et l'incidence potentielle de la demande sur les parties prenantes et la collectivité.
Développement de l'application
L'application est développée à l'aide du cadre Streamlit, en utilisant Python. Le processus de développement comporte plusieurs étapes clés :
- Le prétraitement des données : nettoyage et formatage de l'ensemble de données sur les logements locatifs pour assurer la qualité et la cohérence des données.
- L'ingénierie des fonctionnalités : création de nouvelles fonctionnalités et transformation des fonctionnalités existantes pour améliorer les performances et l'intelligibilité des modèles.
- La modélisation d'apprentissage automatique (AA) : entraînement et évaluation de modèles prédictifs pour prévoir les prix des loyers et les types de propriétés.
- La conception de l'interface utilisateur : conception d'une interface intuitive et conviviale pour assurer une navigation et une interaction fluides.
Les fonctionnalités
L'application Perspectives sur le logement locatif offre les principales fonctionnalités suivantes :
- Le tableau de bord qui donne un aperçu des objectifs et des principales conclusions du projet.
- L'analyse exploratoire des données (AED) qui permet aux utilisateurs d'étudier les données sur les logements locatifs grâce à des visualisations.
- Modélisation AA : permet aux utilisateurs de prédire les prix de location et les types de propriétés en fonction des paramètres d'entrée.
- Profil des collectivités : affiche les annonces de logements locatifs sur des cartes, fournissant des renseignements spatiaux sur les tendances du marché.
- Intégration du Looker Studio de Google : intègre des renseignements et des rapports supplémentaires permettant une analyse et une visualisation améliorées.
L'expérience utilisateur
L'application donne la priorité à l'expérience utilisateur en offrant une interface intuitive, des fonctionnalités interactives et des renseignements en temps réel. Les utilisateurs peuvent facilement naviguer entre les différentes parties, personnaliser les paramètres d'entrée et visualiser les résultats de manière dynamique et attrayante.
Les retombées et les avantages de l'application
L'application Perspectives sur le logement locatif pourrait avoir des retombées importantes sur les parties prenantes et la collectivité en :
- fournissant des renseignements précieux sur les tendances et les modèles de logement locatif;
- soutenant la prise de décision éclairée en matière d'investissements immobiliers et de gestion immobilière;
- donnant aux utilisateurs des capacités d'analyse prédictive pour la planification stratégique et l'allocation des ressources;
- améliorant la transparence et l'accessibilité des données sur le logement locatif pour les décideurs, les chercheurs et les organismes communautaires.
Les travaux à venir
L'étude offre une analyse détaillée du marché du logement locatif en Ontario, au Canada. En utilisant des techniques d'AED et d'AA, les auteurs fournissent des renseignements précieux sur les tendances spatiales, la dynamique du logement et les prévisions de prix des loyers, ce qui profite à la fois aux marchés métropolitains et aux petites collectivités.
Grâce à un nettoyage méticuleux des données, à l'ingénierie des caractéristiques et à l'application de divers modèles d'apprentissage automatique, l'étude met en lumière des aspects cruciaux comme la répartition des prix, les influences géographiques et les répercussions des attributs du logement sur les prix des loyers. Le développement d'une application Perspectives sur le logement locatif permet d'améliorer davantage l'exploration des données, la modélisation prédictive et la visualisation spatiale. Cela permet de fournir aux parties prenantes des renseignements utiles et exploitables, qui soutiennent une prise de décision éclairée sur le marché du logement locatif.
Dans l'ensemble, l'étude souligne le potentiel transformateur des approches axées sur les données pour relever des défis sociétaux complexes, comme le logement abordable, et souligne l'importance de la collaboration entre les parties prenantes du milieu universitaire, de l'industrie et du gouvernement pour apporter des changements positifs dans le paysage du logement locatif.
Bibliographie
- Min, H., Wood, R., Seong-Jong, J. (2023). Machine Learning Methods and Predictive Modeling to Identify Failures in the Military Aircraft. International Journal of Industrial Engineering, 30(5), 1273-1283. 10.23055/ijietap.2023.30.5.8659
- Belcastro, L., Carbone, D., Cosentino, C., Marozzo, F., Trunfio, P. (2023). Enhancing Cryptocurrency Price Forecasting by Integrating Machine Learning with Social Media and Market Data. Algorithms 2023, 16, 542. 10.3390/a16120542
- Chaudhuri, T., Ghosh, I., Singh, P. (2017). Application of Machine Learning Tools in Predictive Modeling of Pairs Trade in Indian Stock Market. The IUP Journal of Applied Finance, Vol. 23, No. 1.
- Paul RK, Yeasin M., Kumar P, Kumar P, Balasubramanian M, Roy HS, et al. (2022). Machine learning techniques for forecasting agricultural prices: A case of brinjal in Odisha, India. (en anglais seulement) PLoS ONE 17(7): e0270553.
- Pyo S, Lee J, Cha M, Jang H. (2017). Predictability of machine learning techniques to forecast the trends of market index prices: Hypothesis testing for the Korean stock markets. (en anglais seulement) PLoS ONE 12(11): e0188107.
- Rowe, W. (s.d.). Mean Square Error & R2 Score Clearly Explained. (en anglais seulement) BMC Blogs.
- R, V. (11 septembre 2018). Feature selection — Correlation and P-value. (en anglais seulement) Machine Learning - The Science, The Engineering, and The Ops.
- sklearn.metrics.r2_score — scikit-learn 0.24.1 documentation. (en anglais seulement) (s.d.). Scikit-Learn.org.
- panData. (8 avril 2023). Exploratory Data Analysis (EDA): Techniques and Methods for Effective ML Models. (en anglais seulement) Medium.
- Streamlit • A fastest way to build and share data apps. (en anglais seulement) (s.d.). Streamlit.io.
- Looker business intelligence platform embedded analytics. (en anglais seulement) (s.d.). Google Cloud.
- Ashraf, A. (22 septembre 2023). Correlation in machine learning — All you need to know. (en anglais seulement) Medium.
- P-value in Machine Learning. (en anglais seulement) (9 juillet 2020). GeeksforGeeks.
- Ray, S. (7 mars 2019). 7 Types of Regression Techniques you should know. (en anglais seulement) Analytics Vidhya.
- Brownlee, J. (4 octobre 2023). A Gentle Introduction to k-fold Cross-Validation. (en anglais seulement) Machine Learning Mastery.