SAS (Система статистического анализа) — это программный пакет, используемый для продвинутой аналитики, бизнес-анализа, управления данными и предсказательной аналитики. Изначально разработанный для манипуляции данными и статистического анализа, SAS эволюционировал, чтобы включать широкий спектр функциональных возможностей, включая добычу данных, прогнозирование и операционные исследования. Он широко используется в различных отраслях, особенно в здравоохранении, финансах и академической среде, благодаря своим мощным аналитическим возможностям и удобному интерфейсу.
SAS был разработан в 1960-х годах в Университете штата Северная Каролина группой исследователей под руководством Энтони Джеймса Барра. Первоначальной целью было анализировать сельскохозяйственные данные для поддержки статистических проектов. Первая версия SAS была написана на ассемблере и позже была преобразована в более удобный интерфейс в виде статистического пакета.
В 1970-х годах SAS начал набирать популярность за пределами академической среды, поскольку компании осознали его потенциал для коммерческих приложений. Первый Институт SAS был основан в 1976 году и с тех пор расширился в глобальную компанию, предоставляющую программные решения и аналитические услуги. С ростом спроса на аналитику данных SAS разнообразил свои предложения, включая инструменты бизнес-анализа, решения для интеграции данных и возможности продвинутой аналитики.
Сегодня SAS является лидером в области аналитики, предлагая комплексный программный пакет, который охватывает широкий спектр статистических методов и методологий. С ростом больших данных и машинного обучения SAS адаптировался, интегрировав возможности искусственного интеллекта (ИИ) и машинного обучения (МО) в свою платформу. Его программное обеспечение широко используется для соблюдения норм и управления рисками в строго регулируемых отраслях, таких как фармацевтика и финансы.
Основой программирования в SAS являются шаги данных и шаги процедуры (PROC). Шаги данных используются для манипуляции данными, в то время как шаги PROC применяются для анализа.
data mydata;
input name $ age salary;
datalines;
John 30 50000
Jane 25 60000
;
run;
SAS поддерживает два типа переменных: числовые и символьные. Числовые переменные могут хранить числа, в то время как символьные переменные могут хранить текстовые строки.
data example;
name = "Alice";
age = 28;
run;
SAS позволяет использовать массивы для эффективной манипуляции данными.
data array_example;
array nums(3) x1 x2 x3;
do i = 1 to 3;
nums(i) = i * 10;
end;
run;
SAS предоставляет ряд встроенных функций для преобразования данных, статистики и манипуляции строками.
data example;
x = abs(-5); /* Абсолютное значение */
y = length("SAS"); /* Длина строки */
run;
SAS позволяет форматировать значения данных с помощью форматов, улучшая представление выходных данных.
data formatted;
value = 12345.678;
formatted_value = put(value, dollar8.2); /* Форматирует как $12,345.68 */
run;
Добавление меток к переменным может улучшить читаемость выходных данных.
data labeled;
x = 1;
label x = "Метка переменной X";
run;
SAS поддерживает условные операторы для манипуляции данными.
data conditional;
set mydata;
if age > 30 then status = "Старший";
else status = "Младший";
run;
SAS предоставляет синтаксис для объединения нескольких наборов данных на основе общих ключей.
data merged;
merge dataset1 dataset2;
by ID;
run;
SAS включает возможности макропрограммирования для динамической генерации кода.
%macro example(data);
data &data;
set &data;
run;
%mend example;
SAS предоставляет встроенные процедуры для создания графических представлений данных.
proc sgplot data=mydata;
scatter x=age y=salary;
run;
SAS Enterprise Guide — это широко используемый графический интерфейс (GUI) для SAS, который позволяет пользователям создавать проекты с помощью метода "указания и щелчка". Другие популярные среды включают SAS Studio и Base SAS, которые предлагают более ориентированный на код подход. SAS Viya — это новая облачная аналитическая платформа, которая также поддерживает программирование на SAS.
Для создания проекта SAS пользователи обычно пишут скрипты в IDE или текстовом редакторе, которые затем выполняются для выполнения преобразований и анализов данных. Типичный рабочий процесс включает написание шага данных, за которым следуют один или несколько шагов PROC для анализа или визуализации данных. Выходные данные могут быть экспортированы в различные форматы, включая CSV, Excel и RTF.
SAS в основном используется в отраслях, требующих строгого анализа данных, включая:
При сравнении SAS с соответствующими языками программирования:
В отношении перевода с источника на источник существуют инструменты, такие как "SASTransformer", которые могут облегчить преобразование кода SAS в R, Python или SQL. Однако каждый язык имеет уникальный синтаксис и библиотеки, которые могут не иметь прямых эквивалентов, что требует тщательного рассмотрения во время перевода.