Qu`est-ce que cela signifie pour nous? lorsque p valeur est inférieure au niveau de signification (< 0,05), nous pouvons rejeter en toute sécurité l`hypothèse nulle selon laquelle la β co-efficace du prédicteur est égale à zéro. Dans notre cas, linearMod, ces deux valeurs de p sont bien en dessous du seuil de 0,05, donc nous pouvons conclure que notre modèle est en effet statistiquement significatif. La régression de crête est une technique utilisée lorsque les données souffrent de multicolinéarité (les variables indépendantes sont fortement corrélées). En multicolinéarité, même si les estimations des moindres carrés (OLS) sont impartiales, leurs écarts sont importants, ce qui écarte la valeur observée loin de la valeur réelle. En ajoutant un degré de partialité aux estimations de régression, la régression de crête réduit les erreurs standard. Le diagramme de dispersion ainsi que la ligne de lissage ci-dessus suggèrent une relation croissante linéairement entre les variables`dist`et`Speed`. C`est une bonne chose, parce que, l`une des hypothèses sous-jacentes dans la régression linéaire est que la relation entre la réponse et les variables prédictitrices est linéaire et additif. La régression linéaire a été le premier type d`analyse de régression à étudier rigoureusement, et à être largement utilisée dans les applications pratiques. [4] c`est parce que les modèles qui dépendent linéairement de leurs paramètres inconnus sont plus faciles à adapter que les modèles qui sont non linéairement liés à leurs paramètres et parce que les propriétés statistiques des estimateurs résultants sont plus faciles à déterminer. Dans cet article, j`ai discuté de 7 types de régression et quelques faits clés associés à chaque technique. Comme quelqu`un qui est nouveau dans cette industrie, je vous conseille d`apprendre ces techniques et plus tard les mettre en œuvre dans vos modèles.
La figure 3 montre un nuage de dispersion de l`Université GPA en fonction de l`amp du secondaire. Vous pouvez voir à partir de la figure qu`il y a une forte relation positive. La corrélation est 0,78. L`équation de régression est nous avons un jeu de données qui contient des informations sur la relation entre «nombre d`heures étudiées» et «marques obtenues». De nombreux étudiants ont été observés et leurs heures d`études et de notes sont enregistrées. Ce sera nos données de formation. But est de concevoir un modèle qui peut prédire les marques si compte tenu du nombre d`heures étudiées. À l`aide des données d`entraînement, une ligne de régression est obtenue, ce qui donnera une erreur minimale. Cette équation linéaire est ensuite utilisée pour toutes les nouvelles données. C`est, si nous donnons le nombre d`heures étudiées par un étudiant comme une entrée, notre modèle devrait prédire leur marque avec une erreur minimale.
Il est absolument important que le modèle soit statistiquement significatif avant que nous puissions aller de l`avant et l`utiliser pour prédire (ou estimer) la variable dépendante, sinon, la confiance dans les valeurs prévues à partir de ce modèle réduit et peut être interprété comme un événement de hasard. En utilisant des modèles linéaires pour la prédiction, il s`avère très commodément que les seules statistiques d`intérêt (au moins aux fins de l`estimation des coefficients pour minimiser l`erreur quadratique) sont la moyenne et la variance de chaque variable et le coefficient de corrélation entre chaque paire de variables. Le coefficient de corrélation entre X et Y est communément noté par rXY, et il mesure la force de la relation linéaire entre eux sur une échelle relative (c`est-à-dire sans unité) de-1 à + 1. C`est à dire qu`il mesure la mesure dans laquelle un modèle linéaire peut être utilisé pour prédire l`écart d`une variable par rapport à sa moyenne en sachant que l`autre écart de sa moyenne au même moment. Vous avez peut-être remarqué que nous n`avons pas précisé ce qu`on entend par «ligne la mieux ajustée». De loin, le critère le plus couramment utilisé pour la ligne la mieux ajustée est la ligne qui minimise la somme des erreurs quadratiques de prédiction. C`est le critère qui a été utilisé pour trouver la ligne dans la figure 2. La dernière colonne du tableau 2 montre les erreurs quadratiques de prédiction. La somme des erreurs quadratiques de prédiction indiquées dans le tableau 2 est inférieure à celle de toute autre ligne de régression. Le but de la régression linéaire est de modéliser une variable continue Y comme fonction mathématique d`une ou de plusieurs variables X (s), afin que nous puissions utiliser ce modèle de régression pour prédire le Y lorsque seul le X est connu.