SAS (Statistical Analysis System) to zestaw oprogramowania używany do zaawansowanej analizy, inteligencji biznesowej, zarządzania danymi i analizy predykcyjnej. Początkowo opracowany do manipulacji danymi i analizy statystycznej, SAS ewoluował, aby obejmować szeroki zakres funkcjonalności, w tym eksplorację danych, prognozowanie i badania operacyjne. Jest szeroko stosowany w różnych branżach—szczególnie w opiece zdrowotnej, finansach i akademii—ze względu na swoje potężne możliwości analityczne i przyjazny interfejs użytkownika.
SAS został opracowany w latach 60. XX wieku na Uniwersytecie Stanowym Karoliny Północnej przez grupę badaczy kierowaną przez Anthony'ego Jamesa Barra. Początkowym celem było analizowanie danych rolniczych w celu wsparcia projektów statystycznych. Pierwsza wersja SAS została napisana w języku assemblera, a później przeszła na bardziej przyjazny interfejs w formie pakietu statystycznego.
W latach 70. SAS zaczął zyskiwać popularność poza akademią, gdy firmy dostrzegły jego potencjał do zastosowań komercyjnych. Pierwszy Instytut SAS został założony w 1976 roku, a od tego czasu rozwinął się w globalną firmę dostarczającą rozwiązania programowe i usługi analityczne. W miarę wzrostu zapotrzebowania na analitykę danych, SAS zdywersyfikował swoją ofertę, aby obejmować narzędzia inteligencji biznesowej, rozwiązania integracji danych i zaawansowane możliwości analityczne.
Dziś SAS jest liderem w dziedzinie analityki, oferując kompleksowy zestaw oprogramowania, który obejmuje szeroki zakres technik i metodologii statystycznych. Wraz z rozwojem big data i uczenia maszynowego, SAS dostosował się, wprowadzając możliwości sztucznej inteligencji (AI) i uczenia maszynowego (ML) do swojej platformy. Jego oprogramowanie jest szeroko wykorzystywane do zapewnienia zgodności i zarządzania ryzykiem w ściśle regulowanych branżach, takich jak farmaceutyki i finanse.
Podstawą programowania w SAS są kroki danych i kroki procedur (PROC). Kroki danych służą do manipulacji danymi, podczas gdy kroki PROC są wykorzystywane do analizy.
data mydata;
input name $ age salary;
datalines;
John 30 50000
Jane 25 60000
;
run;
SAS obsługuje dwa typy zmiennych: numeryczne i znakowe. Zmienne numeryczne mogą przechowywać liczby, podczas gdy zmienne znakowe mogą przechowywać ciągi tekstowe.
data example;
name = "Alice";
age = 28;
run;
SAS umożliwia użycie tablic do efektywnej manipulacji danymi.
data array_example;
array nums(3) x1 x2 x3;
do i = 1 to 3;
nums(i) = i * 10;
end;
run;
SAS oferuje szereg wbudowanych funkcji do transformacji danych, statystyki i manipulacji ciągami.
data example;
x = abs(-5); /* Wartość bezwzględna */
y = length("SAS"); /* Długość ciągu */
run;
SAS pozwala na formatowanie wartości danych za pomocą formatów, co poprawia prezentację wyników.
data formatted;
value = 12345.678;
formatted_value = put(value, dollar8.2); /* Formatuje jako $12,345.68 */
run;
Dodawanie etykiet do zmiennych może poprawić czytelność wyników.
data labeled;
x = 1;
label x = "Etykieta zmiennej X";
run;
SAS obsługuje instrukcje warunkowe do manipulacji danymi.
data conditional;
set mydata;
if age > 30 then status = "Senior";
else status = "Junior";
run;
SAS zapewnia składnię do łączenia wielu zbiorów danych na podstawie wspólnych kluczy.
data merged;
merge dataset1 dataset2;
by ID;
run;
SAS zawiera możliwości programowania makr do dynamicznego generowania kodu.
%macro example(data);
data &data;
set &data;
run;
%mend example;
SAS oferuje wbudowane procedury do tworzenia graficznych reprezentacji danych.
proc sgplot data=mydata;
scatter x=age y=salary;
run;
SAS Enterprise Guide to szeroko stosowany graficzny interfejs użytkownika (GUI) dla SAS, który pozwala użytkownikom na budowanie projektów metodą point-and-click. Inne popularne środowiska to SAS Studio i Base SAS, które oferują bardziej kodowy sposób pracy. SAS Viya to nowsza platforma analityczna w chmurze, która również wspiera programowanie w SAS.
Aby zbudować projekt SAS, użytkownicy zazwyczaj piszą skrypty w IDE lub edytorze tekstu, które następnie są wykonywane w celu przeprowadzenia transformacji danych i analiz. Typowy przepływ pracy obejmuje napisanie kroku danych, a następnie jednego lub więcej kroków PROC do analizy lub wizualizacji danych. Wyniki mogą być eksportowane do różnych formatów, w tym CSV, Excel i RTF.
SAS jest głównie używany w branżach wymagających rygorystycznej analizy danych, w tym:
Porównując SAS z odpowiednimi językami programowania:
W zakresie tłumaczenia źródło-do-źródła istnieją narzędzia takie jak "SASTransformer", które mogą ułatwić konwersję kodu SAS na R, Pythona lub SQL. Jednak każdy język ma unikalną składnię i biblioteki, które mogą nie mieć bezpośrednich odpowiedników, co wymaga starannego rozważenia podczas tłumaczenia.