SAS数据分析与统计建模实战指南

SAS（Statistical Analysis System）是一套集成的软件系统，专为统计分析、数据管理和决策支持而设计。作为市场上的主流统计软件之一，SAS广泛应用于金融、医疗、制造及政府等多个领域。

我就是夏迎春

986人浏览 · 2025-04-29 09:19:09

我就是夏迎春 · 2025-04-29 09:19:09 发布

简介：SAS软件广泛应用于数据分析和统计建模，提供数据处理、统计分析和图形绘制功能。本文深入探讨如何利用SAS进行描述性统计分析和图形绘制，包括绘制盒形图、方块图、对比折线图和散点图等。通过具体的SAS编程实践，学习如何使用PROC MEANS和PROC FREQ过程进行基础统计量计算，以及使用PROC SGPlot过程绘制各种数据图表，来揭示数据的分布、比较和趋势。 SAS

1. SAS软件概述

1.1 初识SAS

1.2 SAS的发展与优势

自1960年代由北卡罗来纳州立大学开发以来，SAS经历了持续的演变与优化。其核心优势在于其稳定的数据处理能力、强大的分析算法以及高水准的自定义功能。这些特点使得SAS在全球数据分析领域占据着举足轻重的地位。

1.3 SAS的基本功能概览

SAS系统包含了多个组件，如SAS/STAT（统计分析）、SAS/SQL（SQL数据处理）、SAS/IML（交互式矩阵语言）等，它们各自负责不同的数据处理和分析任务。在接下来的章节中，我们将深入探讨如何使用SAS进行描述性统计、分组统计以及图形化展示等操作。

2. 描述性统计基础操作

2.1 数据集的导入与导出

2.1.1 导入常用格式数据集

在SAS中，数据的导入是一项基础且至关重要的操作。它允许用户将外部数据集（例如CSV、Excel、JSON等）转换为SAS数据集，以便进行后续的数据分析工作。导入数据时，我们可以使用 PROC IMPORT 过程，它支持多种数据格式的读取。

以下是将一个CSV格式的文件导入到SAS数据集中的示例代码：

proc import datafile="C:\path\to\your\file.csv"
            out=work.mydata
            dbms=csv
            replace;
     getnames=yes;
run;

在这段代码中：

datafile 指定了文件的路径。
out 指定了输出的SAS数据集名称。
dbms=csv 定义了数据文件的格式是逗号分隔值（CSV）。
replace 是可选参数，用来覆盖已存在的同名数据集。
getnames=yes 指示SAS将CSV文件的第一行作为变量名读入。

通过这样的操作，我们可以将CSV格式的外部数据转换成SAS可以读取和操作的数据集。

2.1.2 数据集的导出技巧

数据导出是从SAS数据集中导出为其他格式的一个重要操作，它使得数据可以被其他软件或应用使用。 PROC EXPORT 过程可以将SAS数据集导出为多种格式，包括CSV、Excel等。

以下是一个将SAS数据集导出为CSV文件的示例代码：

proc export data=work.mydata
            outfile="C:\path\to\your\exported_data.csv"
            dbms=csv
            replace;
run;

在这段代码中：

data 指定了要导出的SAS数据集名称。
outfile 指定了导出文件的存储路径。
dbms=csv 定义了导出文件的格式为CSV。
replace 参数用于覆盖已存在的文件。

这种导出操作非常适用于数据交换或共享，尤其是当需要将SAS数据集用于报告或进一步的分析时。

2.2 基本统计量的计算

2.2.1 中心趋势测量：均值、中位数、众数

在描述性统计中，衡量数据的中心趋势是一个基本且关键的步骤。SAS的 PROC MEANS 过程可以帮助我们计算均值、中位数和众数等统计量。

以下是一个简单的SAS代码块，展示如何计算这些中心趋势的统计量：

proc means data=work.mydata mean median mode;
    var my_numeric_variable;
run;

在这个例子中：

mean 、 median 和 mode 选项分别计算变量 my_numeric_variable 的均值、中位数和众数。
var 指定了要分析的变量。

通过这些统计量，我们可以了解数据集的中心倾向。均值提供了数据集的平均值；中位数可以减少异常值的影响，给出数据集的中间位置；众数则是数据集中出现次数最多的值。

2.2.2 离散程度测量：方差、标准差

衡量数据的离散程度也是描述性统计的重要组成部分，它帮助我们了解数据的分布情况。方差和标准差是度量数据分散程度的常用统计量。

以下是使用 PROC MEANS 过程来计算方差和标准差的示例代码：

proc means data=work.mydata vardef=df;
    var my_numeric_variable;
run;

在这个例子中：

vardef=df 指定了分母为自由度（n-1），这是计算样本方差时的常用方法。
var 指定了要分析的变量。

方差和标准差给出了数据相对于均值的分散程度，是理解数据波动的关键指标。

请注意，这只是一个简短的章节介绍，由于字数限制，无法在此处详细展开每个子章节内容。如需获得完整的章节内容，请根据以上结构继续编写后续的段落和代码解释。

3. PROC MEANS过程应用

3.1 常规描述性统计分析

描述性统计是数据分析的第一步，它涉及对数据集的基本特征进行汇总和解释。在SAS中， PROC MEANS过程是一种非常强大的工具，可以帮助我们快速获得数据集的各种描述性统计量，包括但不限于均值、中位数、总和、最大值、最小值以及标准差等。这些统计量为我们提供了数据集分布特征的初步理解，为进一步的数据分析打下坚实的基础。

3.1.1 求均值、总和、中位数等统计量

要使用PROC MEANS过程获取数据集的常规描述性统计量，我们可以按照以下步骤进行：

首先，我们需要一个数据集。假设我们有一个名为 sales_data 的数据集，它包含了某公司过去一年的销售数据。

data sales_data;
    input Region $ Sales;
    datalines;
East 143
West 156
Central 177
West 129
East 132
;
run;

接下来，我们使用PROC MEANS过程来计算销售数据的均值、总和和中位数。

proc means data=sales_data;
    var Sales;
run;

在这个过程中， data= 指定了要分析的数据集，而 var 语句后跟我们要计算统计量的变量名。 PROC MEANS 过程默认会计算 N （非缺失值的数量）、 MEAN （均值）、 STDDEV （标准差）、 MIN （最小值）、 MAX （最大值）等统计量。我们可以通过 output 语句将这些统计量输出到新的数据集中，以便进行进一步的分析或报告。

3.1.2 缺失值的处理方法

在现实世界的数据分析中，数据集往往含有缺失值。PROC MEANS过程允许我们通过选项来控制如何处理这些缺失值。以下是几种常见的处理方法：

NWAY 选项：按指定的分类变量分组统计，只对每个分组非缺失值进行计算。
NMiss 选项：计算数据集中的缺失值数量。
CSS 和 SSCP 选项：提供用于方差分析的计算选项。

通过正确使用这些选项，我们可以确保我们的统计分析结果准确反映了数据集的实际特征。

3.2 分组统计分析

分组统计分析是描述性统计分析中的一个重要环节，它能够帮助我们理解不同分类变量下数据的分布情况。通过PROC MEANS过程，我们可以轻松地按一个或多个分类变量进行分组统计，获取每个组内的统计量，进而进行比较分析。

3.2.1 按分类变量进行分组统计

假设 sales_data 数据集中还有一个 Region 变量，我们想要根据地区分类来分析销售数据。

proc means data=sales_data;
    class Region;
    var Sales;
    output out=summary_stats mean=mean_sales sum=sum_sales median=median_sales;
run;

在上述代码中， class 语句指定了分组变量 Region 。 output 语句中的 out= 选项指定了输出数据集的名字，并且我们通过 mean= , sum= 和 median= 选项指定了输出数据集中包含的统计量。

3.2.2 多变量分组统计应用

进一步，如果想要对 Region 和地区内的不同 Product 进行销售数据的交叉分组统计，我们可以使用 class 语句添加多个变量。

proc means data=sales_data;
    class Region Product;
    var Sales;
run;

此时PROC MEANS过程会创建一个交叉表，表中每一行代表一个区域，每一列代表一个产品，单元格内的数据则为对应组合的统计量。

通过以上步骤，我们可以深入了解在不同分类条件下的数据分布特征，并为进一步的数据挖掘和模型构建奠定基础。

4. PROC FREQ过程应用

4.1 频数和交叉表分析

4.1.1 单变量频数分析

在数据分析中，了解变量的频数分布是基本且重要的步骤。使用PROC FREQ过程，可以轻松实现单变量的频数分析。PROC FREQ会提供变量中每个唯一值出现的次数以及相应的百分比。这对于理解数据集中的变量分布至关重要。以下是如何在SAS中进行单变量频数分析的步骤：

proc freq data=your_dataset;
    tables variable_name / nocum;
run;

上述代码中， your_dataset 应替换为你的数据集名称，而 variable_name 则是你希望进行频数分析的变量名。 nocum 选项用于生成非累积的频率表。

代码逻辑分析： - proc freq ：启动FREQ过程，它是SAS中进行频数分析的专用过程。 - data=your_dataset ：指明分析所用的数据集。 - tables variable_name ：指定要分析的变量。 - / nocum ：输出的频率表不包含累积频率。

执行这段代码后，SAS会输出一个频数表，包括各个类别的频数和百分比。这个信息对于初步分析数据的分布非常有用。

4.1.2 多变量交叉表分析

当需要同时分析两个或多个变量之间的关系时， PROC FREQ过程可以生成交叉表（也称为列联表），以展示变量间的频数分布。这可以帮助我们理解变量间的相互作用和独立性。

proc freq data=your_dataset;
    tables variable1 * variable2 / chisq;
run;

在这个示例中， variable1 和 variable2 是数据集中你想要分析的两个变量。使用 * 符号表示你想要查看这两个变量间的交叉频数。 chisq 是可选的，用于计算卡方统计量，这在检验两个变量是否独立时非常有用。

代码逻辑分析： - proc freq ：启动FREQ过程，用于频数和交叉表分析。 - data=your_dataset ：指明进行分析的数据集。 - tables variable1 * variable2 ：创建一个交叉表，展示两个变量的组合频数。 - / chisq ：计算卡方统计量，用于检验独立性。

交叉表的输出将为每个 variable1 的类别提供 variable2 的频数和百分比，反之亦然。此外，还提供卡方检验的统计值，以供进一步分析变量之间的独立性。

4.2 百分比统计与图表展示

4.2.1 计算并显示各类百分比

除了频数表，PROC FREQ过程还能够计算变量的各种百分比统计。SAS会提供行百分比、列百分比以及总百分比等，有助于深入理解数据中变量的关系。

proc freq data=your_dataset;
    tables variable1 / out=FreqOut;
    tables variable1 * variable2 / out=CrossTabOut;
run;

data Percentages;
    set FreqOut CrossTabOut;
run;

在这段代码中， out=FreqOut 选项和 out=CrossTabOut 选项分别用于将频数表和交叉表保存到SAS数据集中。随后，使用 data Percentages; set FreqOut CrossTabOut; 合并这两个表，并将合并后的数据集命名为 Percentages ，方便后续分析。

代码逻辑分析： - proc freq ：启动FREQ过程。 - tables variable1 / out=FreqOut; ：计算 variable1 的频数，并将结果输出到数据集 FreqOut 。 - tables variable1 * variable2 / out=CrossTabOut; ：计算 variable1 和 variable2 的交叉表，并将结果输出到数据集 CrossTabOut 。 - data Percentages; set FreqOut CrossTabOut; ：通过数据集合并操作，创建包含所有百分比信息的新数据集 Percentages 。

通过合并后的 Percentages 数据集，我们可以进一步分析和展示各类百分比数据，以便于洞察数据集中的分布特征。

4.2.2 图表化展示频数和百分比

数据可视化是数据呈现的另一种方式，对于沟通和解释数据结果尤其重要。SAS提供了一系列工具和方法，可以将统计分析结果转换为图表形式。

proc sgplot data=your_dataset;
    vbar variable1 / response=频数;
run;

在这个例子中， vbar 是垂直条形图（Vertical Bar Chart）的缩写， variable1 是我们在前面的例子中分析过的变量。 response=频数 选项用于指定条形图中条形的高度应对应于频数数据。

代码逻辑分析： - proc sgplot ：启动SGPLOT过程，它是SAS中用于创建高级统计图形的过程。 - data=your_dataset ：指明图形数据源。 - vbar variable1 / response=频数; ：绘制一个垂直条形图，展示 variable1 的频数分布。

该条形图可以直观地展示不同类别或值的频数分布，使得信息更易于理解。此外，SAS还允许进一步定制图表样式，比如调整颜色、轴标签、标题等，以增强图表的可读性和吸引力。

使用PROC FREQ过程的分析结果，结合PROC SGPlot过程的可视化能力，能够为数据集的探索性分析提供完整的解决方案。在下一小节中，我们将深入探讨如何定制和优化这些图表，以更好地满足分析报告的需求。

5. PROC SGPlot过程应用

PROC SGPlot是SAS中用于绘制统计图表的过程。它不仅提供了一个简单易用的接口，而且能通过高级选项定制和优化图表。本章将介绍PROC SGPlot的不同图表类型、复杂数据分析图表的绘制方法以及图表的定制与优化。

5.1 常见图表类型绘制

5.1.1 盒形图绘制

盒形图是表示数据集中趋势、分散度以及异常值的图形工具。在PROC SGPlot中绘制盒形图十分直接，你可以利用 VBOX 语句快速创建。

proc sgplot data=sashelp.class;
  vbox height / category=sex;
run;

上述代码将按照性别分组，绘制学生身高数据的盒形图。

5.1.2 方块图绘制

方块图（Scatter Plot）是一种常用于显示两个数值变量之间关系的图表。使用PROC SGPlot中的 SCATTER 语句可以绘制方块图。

proc sgplot data=sashelp.class;
  scatter y=weight x=height / group=sex;
run;

这段代码展示了体重与身高的关系，并按性别区分不同点的颜色。

5.2 复杂数据分析图表

5.2.1 对比折线图绘制

在处理时间序列数据时，对比折线图是常见的选择。借助 SERIES 语句，我们可以轻松地绘制这种图表，来对比不同分组的动态变化。

proc sgplot data=sashelp.cars;
  series x=year y=sales / group=model;
run;

这里以汽车模型和年份为基准，绘制了各模型销量随时间变化的对比折线图。

5.2.2 散点图绘制

散点图是一种描绘两个变量之间关系的图表。通过 SGSCATTER 过程，我们可以更细致地定制散点图矩阵。

proc sgscatter data=sashelp.heart;
  matrix cholesterol weight / diagonal=(histogram);
run;

上述代码创建了一个散点图矩阵，显示了胆固醇水平与体重的关系。

5.3 图表定制与优化

5.3.1 图表样式和颜色的定制

PROC SGPlot提供了丰富的选项来定制图表的外观，包括颜色、标记、图例等。例如，通过 styleattrs 语句，我们可以修改图形的颜色和样式属性。

proc sgplot data=sashelp.class noautolegend;
  styleattrs datacontrastcolors=(red blue green);
  vbox weight / category=sex;
run;

此段代码将盒子图的颜色更改为红色、蓝色和绿色，用以区分不同的性别。

5.3.2 图表性能优化策略

优化图表的性能通常涉及到减少复杂度和提升渲染速度。通过选择合适的图表类型和减少数据点的数量，可以有效改善性能。

proc sgplot data=sashelp.cars(keep=model year mpg_highway) noautolegend;
  series x=year y=mpg_highway / group=model markerattrs=(symbol=circlefilled size=5px);
run;

在该示例中，我们限制了数据集只包含模型、年份和高速路油耗，并且将标记大小减少到5像素，这有助于提升图表的加载速度。

通过以上章节，您应该已经掌握如何使用PROC SGPlot过程在SAS中绘制和优化各类统计图表。在实际应用中，您可以根据具体需求调整图表类型、样式和性能，以获得最佳的可视化效果。

本文还有配套的精品资源，点击获取