Transcription

Applied Statistics with R2021-06-11

2

Contents1 Introduction111.1About This Book . . . . . . . . . . . . . . . . . . . . . . . . . . .111.2Conventions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .121.3Acknowledgements . . . . . . . . . . . . . . . . . . . . . . . . . .121.4License . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .132 Introduction to R152.1Getting Started . . . . . . . . . . . . . . . . . . . . . . . . . . . .152.2Basic Calculations . . . . . . . . . . . . . . . . . . . . . . . . . .162.3Getting Help . . . . . . . . . . . . . . . . . . . . . . . . . . . . .172.4Installing Packages . . . . . . . . . . . . . . . . . . . . . . . . . .183 Data and Programming213.1Data Types . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .213.2Data Structures . . . . . . . . . . . . . . . . . . . . . . . . . . . .213.2.1Vectors . . . . . . . . . . . . . . . . . . . . . . . . . . . .223.2.2Vectorization . . . . . . . . . . . . . . . . . . . . . . . . .263.2.3Logical Operators . . . . . . . . . . . . . . . . . . . . . .273.2.4More Vectorization . . . . . . . . . . . . . . . . . . . . . .293.2.5Matrices . . . . . . . . . . . . . . . . . . . . . . . . . . . .313.2.6Lists . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .413.2.7Data Frames . . . . . . . . . . . . . . . . . . . . . . . . .43Programming Basics . . . . . . . . . . . . . . . . . . . . . . . . .513.33

4CONTENTS3.3.1Control Flow . . . . . . . . . . . . . . . . . . . . . . . . .513.3.2Functions . . . . . . . . . . . . . . . . . . . . . . . . . . .524 Summarizing Data574.1Summary Statistics . . . . . . . . . . . . . . . . . . . . . . . . . .574.2Plotting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .584.2.1Histograms . . . . . . . . . . . . . . . . . . . . . . . . . .584.2.2Barplots . . . . . . . . . . . . . . . . . . . . . . . . . . . .604.2.3Boxplots . . . . . . . . . . . . . . . . . . . . . . . . . . . .624.2.4Scatterplots . . . . . . . . . . . . . . . . . . . . . . . . . .645 Probability and Statistics in R5.15.25.367Probability in R . . . . . . . . . . . . . . . . . . . . . . . . . . . .675.1.167Distributions . . . . . . . . . . . . . . . . . . . . . . . . .Hypothesis Tests in R. . . . . . . . . . . . . . . . . . . . . . . .695.2.1One Sample t-Test: Review . . . . . . . . . . . . . . . . .695.2.2One Sample t-Test: Example . . . . . . . . . . . . . . . .705.2.3Two Sample t-Test: Review . . . . . . . . . . . . . . . . .735.2.4Two Sample t-Test: Example . . . . . . . . . . . . . . . .73Simulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .765.3.1Paired Differences . . . . . . . . . . . . . . . . . . . . . .775.3.2Distribution of a Sample Mean . . . . . . . . . . . . . . .806 R Resources856.1Beginner Tutorials and References . . . . . . . . . . . . . . . . .856.2Intermediate References . . . . . . . . . . . . . . . . . . . . . . .856.3Advanced References . . . . . . . . . . . . . . . . . . . . . . . . .866.4Quick Comparisons to Other Languages . . . . . . . . . . . . . .866.5RStudio and RMarkdown Videos . . . . . . . . . . . . . . . . . .866.6RMarkdown Template . . . . . . . . . . . . . . . . . . . . . . . .87

CONTENTS57 Simple Linear Regression7.17.27.389Modeling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .897.1.1Simple Linear Regression Model . . . . . . . . . . . . . .94Least Squares Approach . . . . . . . . . . . . . . . . . . . . . . .977.2.1Making Predictions . . . . . . . . . . . . . . . . . . . . . .997.2.2Residuals . . . . . . . . . . . . . . . . . . . . . . . . . . . 1027.2.3Variance Estimation . . . . . . . . . . . . . . . . . . . . . 103Decomposition of Variation . . . . . . . . . . . . . . . . . . . . . 1047.3.1Coefficient of Determination . . . . . . . . . . . . . . . . . 1067.4The lm Function . . . . . . . . . . . . . . . . . . . . . . . . . . . 1087.5Maximum Likelihood Estimation (MLE) Approach . . . . . . . . 1157.6Simulating SLR . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1187.7History . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1217.8R Markdown . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1228 Inference for Simple Linear Regression1238.1Gauss–Markov Theorem . . . . . . . . . . . . . . . . . . . . . . . 1268.2Sampling Distributions . . . . . . . . . . . . . . . . . . . . . . . . 1278.2.1Simulating Sampling Distributions . . . . . . . . . . . . . 1288.3Standard Errors . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1348.4Confidence Intervals for Slope and Intercept . . . . . . . . . . . . 1378.5Hypothesis Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . 1388.6cars Example . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1398.6.1Tests in R . . . . . . . . . . . . . . . . . . . . . . . . . . . 1398.6.2Significance of Regression, t-Test . . . . . . . . . . . . . . 1428.6.3Confidence Intervals in R . . . . . . . . . . . . . . . . . . . 1438.7Confidence Interval for Mean Response . . . . . . . . . . . . . . . 1458.8Prediction Interval for New Observations . . . . . . . . . . . . . . 1468.9Confidence and Prediction Bands . . . . . . . . . . . . . . . . . . 1478.10 Significance of Regression, F-Test . . . . . . . . . . . . . . . . . . 1498.11 R Markdown . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151

6CONTENTS9 Multiple Linear Regression1539.1Matrix Approach to Regression . . . . . . . . . . . . . . . . . . . 1579.2Sampling Distribution . . . . . . . . . . . . . . . . . . . . . . . . 1619.2.1Single Parameter Tests . . . . . . . . . . . . . . . . . . . . 1639.2.2Confidence Intervals . . . . . . . . . . . . . . . . . . . . . 1659.2.3Confidence Intervals for Mean Response . . . . . . . . . . 1659.2.4Prediction Intervals . . . . . . . . . . . . . . . . . . . . . 1699.3Significance of Regression . . . . . . . . . . . . . . . . . . . . . . 1709.4Nested Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1749.5Simulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1779.6R Markdown . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18410 Model Building18510.1 Family, Form, and Fit . . . . . . . . . . . . . . . . . . . . . . . . 18610.1.1 Fit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18610.1.2 Form . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18710.1.3 Family . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18710.1.4 Assumed Model, Fitted Model . . . . . . . . . . . . . . . 18810.2 Explanation versus Prediction . . . . . . . . . . . . . . . . . . . . 18910.2.1 Explanation . . . . . . . . . . . . . . . . . . . . . . . . . . 18910.2.2 Prediction . . . . . . . . . . . . . . . . . . . . . . . . . . . 19110.3 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19410.4 R Markdown . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19411 Categorical Predictors and Interactions19511.1 Dummy Variables . . . . . . . . . . . . . . . . . . . . . . . . . . . 19611.2 Interactions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20311.3 Factor Variables . . . . . . . . . . . . . . . . . . . . . . . . . . . 21211.3.1 Factors with More Than Two Levels . . . . . . . . . . . . 21511.4 Parameterization . . . . . . . . . . . . . . . . . . . . . . . . . . . 22111.5 Building Larger Models . . . . . . . . . . . . . . . . . . . . . . . 22511.6 R Markdown . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229

CONTENTS712 Analysis of Variance23112.1 Experiments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23112.2 Two-Sample t-Test . . . . . . . . . . . . . . . . . . . . . . . . . . 23212.3 One-Way ANOVA . . . . . . . . . . . . . . . . . . . . . . . . . . 23512.3.1 Factor Variables . . . . . . . . . . . . . . . . . . . . . . . 24212.3.2 Some Simulation . . . . . . . . . . . . . . . . . . . . . . . 24312.3.3 Power . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24412.4 Post Hoc Testing . . . . . . . . . . . . . . . . . . . . . . . . . . . 24612.5 Two-Way ANOVA . . . . . . . . . . . . . . . . . . . . . . . . . . 24912.6 R Markdown . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25913 Model Diagnostics26113.1 Model Assumptions. . . . . . . . . . . . . . . . . . . . . . . . . 26113.2 Checking Assumptions . . . . . . . . . . . . . . . . . . . . . . . . 26313.2.1 Fitted versus Residuals Plot . . . . . . . . . . . . . . . . . 26413.2.2 Breusch-Pagan Test . . . . . . . . . . . . . . . . . . . . . 27013.2.3 Histograms . . . . . . . . . . . . . . . . . . . . . . . . . . 27213.2.4 Q-Q Plots . . . . . . . . . . . . . . . . . . . . . . . . . . . 27313.2.5 Shapiro-Wilk Test . . . . . . . . . . . . . . . . . . . . . . 28013.3 Unusual Observations . . . . . . . . . . . . . . . . . . . . . . . . 28213.3.1 Leverage . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28413.3.2 Outliers . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29013.3.3 Influence. . . . . . . . . . . . . . . . . . . . . . . . . . . 29213.4 Data Analysis Examples . . . . . . . . . . . . . . . . . . . . . . . 29413.4.1 Good Diagnostics . . . . . . . . . . . . . . . . . . . . . . . 29413.4.2 Suspect Diagnostics . . . . . . . . . . . . . . . . . . . . . 29813.5 R Markdown . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 301

8CONTENTS14 Transformations30314.1 Response Transformation . . . . . . . . . . . . . . . . . . . . . . 30314.1.1 Variance Stabilizing Transformations . . . . . . . . . . . . 30614.1.2 Box-Cox Transformations . . . . . . . . . . . . . . . . . . 31114.2 Predictor Transformation . . . . . . . . . . . . . . . . . . . . . . 31914.2.1 Polynomials . . . . . . . . . . . . . . . . . . . . . . . . . . 32214.2.2 A Quadratic Model . . . . . . . . . . . . . . . . . . . . . . 34514.2.3 Overfitting and Extrapolation . . . . . . . . . . . . . . . . 35014.2.4 Comparing Polynomial Models . . . . . . . . . . . . . . . 35114.2.5 poly() Function and Orthogonal Polynomials . . . . . . . 35414.2.6 Inhibit Function . . . . . . . . . . . . . . . . . . . . . . . 35614.2.7 Data Example . . . . . . . . . . . . . . . . . . . . . . . . 35714.3 R Markdown . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36315 Collinearity36515.1 Exact Collinearity . . . . . . . . . . . . . . . . . . . . . . . . . . 36515.2 Collinearity . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36815.2.1 Variance Inflation Factor. . . . . . . . . . . . . . . . . . . 37115.3 Simulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37715.4 R Markdown . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38216 Variable Selection and Model Building38316.1 Quality Criterion . . . . . . . . . . . . . . . . . . . . . . . . . . . 38316.1.1 Akaike Information Criterion . . . . . . . . . . . . . . . . 38416.1.2 Bayesian Information Criterion . . . . . . . . . . . . . . . 38516.1.3 Adjusted R-Squared . . . . . . . . . . . . . . . . . . . . . 38616.1.4 Cross-Validated RMSE. . . . . . . . . . . . . . . . . . . 38616.2 Selection Procedures . . . . . . . . . . . . . . . . . . . . . . . . . 39016.2.1 Backward Search . . . . . . . . . . . . . . . . . . . . . . . 39116.2.2 Forward Search . . . . . . . . . . . . . . . . . . . . . . . . 39716.2.3 Stepwise Search . . . . . . . . . . . . . . . . . . . . . . . . 40016.2.4 Exhaustive Search . . . . . . . . . . . . . . . . . . . . . . 403

CONTENTS916.3 Higher Order Terms . . . . . . . . . . . . . . . . . . . . . . . . . 40816.4 Explanation versus Prediction . . . . . . . . . . . . . . . . . . . . 41316.4.1 Explanation . . . . . . . . . . . . . . . . . . . . . . . . . . 41316.4.2 Prediction . . . . . . . . . . . . . . . . . . . . . . . . . . . 41516.5 R Markdown . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41617 Logistic Regression41717.1 Generalized Linear Models . . . . . . . . . . . . . . . . . . . . . . 41717.2 Binary Response . . . . . . . . . . . . . . . . . . . . . . . . . . . 41917.2.1 Fitting Logistic Regression . . . . . . . . . . . . . . . . . 42117.2.2 Fitting Issues . . . . . . . . . . . . . . . . . . . . . . . . . 42217.2.3 Simulation Examples . . . . . . . . . . . . . . . . . . . . . 42217.3 Working with Logistic Regression . . . . . . . . . . . . . . . . . . 42917.3.1 Testing with GLMs . . . . . . . . . . . . . . . . . . . . . . 43017.3.2 Wald Test . . . . . . . . . . . . . . . . . . . . . . . . . . . 43017.3.3 Likelihood-Ratio Test . . . . . . . . . . . . . . . . . . . . 43117.3.4 SAheart Example . . . . . . . . . . . . . . . . . . . . . . 43217.3.5 Confidence Intervals . . . . . . . . . . . . . . . . . . . . . 43517.3.6 Confidence Intervals for Mean Response . . . . . . . . . . 43617.3.7 Formula Syntax . . . . . . . . . . . . . . . . . . . . . . . . 43817.3.8 Deviance . . . . . . . . . . . . . . . . . . . . . . . . . . . 44017.4 Classification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44117.4.1 spam Example. . . . . . . . . . . . . . . . . . . . . . . . 44217.4.2 Evaluating Classifiers . . . . . . . . . . . . . . . . . . . . 44517.5 R Markdown . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45218 Beyond45318.1 What’s Next . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45318.2 RStudio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45318.3 Tidy Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45318.4 Visualization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45418.5 Web Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . 454

10CONTENTS18.6 Experimental Design . . . . . . . . . . . . . . . . . . . . . . . . . 45418.7 Machine Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . 45518.7.1 Deep Learning . . . . . . . . . . . . . . . . . . . . . . . . 45518.8 Time Series . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45518.9 Bayesianism . . . . . . . . . . . . . .