Proiect Analiza Datelor

Academic year: 2018/2019
Academia de Studii Economice din București


ACADEMIA DE STUDII ECONOMICE DIN FACULTATEA DE PROIECT ANALIZA DATELOR 2020 1 CUPRINS: I I I .Descrierea datelor si obtiectivul proiectului.................................................................................................................. I datelor si statistici descriptive..................................................................................................................... II componentelor principale..................................................................................................................................... factoriala............................................................................................................................................................. VI Partea I.................................................................................................................................................................. V II Cluster nesupervizata a formelor................................................................ V Cluster pentru date standardizate................................................................................................................... V.1 Metoda metoda Silhouette....................................................................................................... V.1 Metoda agregarii complete................................................................................................................................. V.1 Algoritmul de partitionare V Cluster pentru componente principale............................................................................................................ V.2 Metoda metoda Silhouette....................................................................................................... V.2 Metoda agregarii complete................................................................................................................................... V.2 Algoritmul de partitionare VI. Analiza supervizata a formelor....................................................................................... VI BAYESIAN pentru componente principale..................................................................................... VI Clasificatorul liniar (LDA)........................................................................................................................................ VI.2 LDA pentru date standardizate........................................................................................................................... VI.2 LDA pentru componente principale.................................................................................................................. VII Partea II............................................................................................................................................................. IDN Indonesia JAM Jamaica JOR Iordania KEN Kenya KGZ Kargastan KHM Cambodia LKA Sir Lanka MAR Maroc MDG Madagascar MKD Macedonia de Nord MMR Myanmar MUS Mauritius NIC Nicaragua PER Peru PHL Filipine PRY Paraguay ROU Romania RWA Rwanda TZA Tanzania UGA Uganda VCT SaintVincent and the Grenadines ZAF Africa de Sud 10 variabile numerice, 0 variabile calitative Principala a datelor: THE WORLD BANK accesat 2019: I datelor si statistici descriptive In primul rand, am eliminat outlierii din setul de date in R iar pasul urmator a fost realizarea statisticilor descriptive . Outlierii am ales sa ii elimin in R . Setul de date initial contine 53 de observatii si arata in felul urmator : Table 1 Date initiale STATISTICI DESCRIPTIVE Interpretare pentru variabia PIB: MEDIA: In medie PIB pe cap de locuitor este de 4345 USD pentru datele analizate. Cea mai mica valoare inregistra a este de 448 iar valoarea maxima este de 11752. QUARTILELE: Prima quartile(Q1)delimiteaza cele mai mici din date. din valorile sunt mai mici de 1403 si dintre valori sunt mai mari de 1403. A treia quartile(Q3)delimiteaza cele mai mari din din valorile sunt mai mari de 6414 si dintre valori sunt mai mici de 6414. Mediana(Q2) imparte setul de date in din valori se afla sub 3914 si se afla peste aceasta valoare ABATEREA STANDARD: Abaterea standard gradul de de la medie. Cu este mai mica, cu scade observa ca variabila PIB se abate de la medie cu SKEWNESS Skewness(coeficient de asimetrie) coeficientul de asimetrie se pentru analiza unei serii de valori pentru a indica sale raport cu valoarea lui Skewness 0 este spre mai multe valori extreme spre dreapta (asimetrie la dreapta) . In cazul de fata se observa ca variabilele: au valoarea ceea ce inseamna ca prezinta asimetrie la dreapta,lucru pe care il vom vedea si cu ajutorul histogramelor. valoarea lui Skewness 0 este spre dreapta, mai multe valori extreme spre (asimetrie la . Se observa ca o singura variabila si anume are valoarea ceea ce inseamna ca prezinta asimetrie la stanga. valoarea lui Skewness 0 media mediana, este jurul mediei. In cazul de fata nicio variabila nu are valoarea ,insa si prezinta valori foarte apropiate de 0 . KURTOSIS 10 Figure 1 Boxploturi Diagrama Boxplot privind forma studiate. O de tip Boxplot grafic rezumarea prin cele 5 valori ale unei valoarea prima quartila, mediana, a treia quartila valoarea Graficul va prezenta de asemenea valorile situate mult afara a datelor analiza prin intermediul quartilelor aflate prin summary statistics, ea fiind o reprezentare a acestora. Se poate observa nu outlieri cu exceptia care prezinta un outlier .Outlierii valorile situate afara care se cu mult de medie care ne pot de o a rezultatelor analiza datelor. HISTOGRAME SI DENSITATI DE REPARTITIE Reprezentarea prin intermediul histogramei a de densitate de probabilitate cele afirmate prin interpretarea formei cu ajutorul coeficientului de asimetrie(skewness) a coeficientului de aplatizare(kurtosis), precum analizele aferente. distributie leptocurtica(ascutita) pentru iar prezinta o distributie normala. REPREZENTARI GRAFICE In continuare am ales sa reprezint grafic dependenta dintre 2 variabiele corelate si .Se poate observa ca intre acestea extista o legatura directa ,liniara,ele fiind corelate pozitiv . Figure 3 Reprezentare dependenta intre export si import Cu ajutorul pachetului ggplot 2 am realizat urmatoarul grafic in R : Figure 4 Grafic ggplot2 Cu ajutorul pachetului PerformanceAnalytics din R am reprezentat coeficientii de corelatie dintre oricare doua variabile : Figure 5 Legatura dintre variabile Pe diagonala sunt reprezentate distributiile variabilelor ,in triunghiul de deasupra diagonalei principale se regasesc valorile coeficientilor de corelatie si masura in care acestia sunt semnificativi statistic,prin intermediul stelutelor. In triunghiul aflat sub diagonala principala sunt reprezentate dependentele dintre oricare doua variabile ,prin intermediul unui nor de puncte si a unei curbe care ajusteaja aceasta dependenta .Se observa ca avem coeficienti de corelatie atat pozitivi cat si negativi .Dintre acestia cea mai puternica legatura exista intre variabilele si MATRICEA DE CORELATIE SI MATRICEA DE COVARIANTA Figure 6 Reprezentarea matricii de corelatie Se observa ca avem coeficienti de corelatie atat pozitivi cat si negativi pentru un prag de 0 .Cea mai puternica legatura exista Export GRUPARI DE VARIABILE Am realizat o grupare de variabile ,pentru variabila dupa cum urmeaza : attach(t2) detach(t2) Rezultatul fiind: STANDARDIZAREA VARIABILELOR Am incheiat acest capitol prin standardizarea variabilelor si am obtinut si II componentelor principale Numele metodei provine de la factorii prin analiza care sunt componente principale. pentru identificarea factorilor se metoda asupra matricei de a variabilelor implicate, continuare se o care poate oferi o viziune mai asupra calculelor efectuate. Se reducerea de variabile, dar cu a mai mult limita din datelor aceasta se introduce o W, ca o a variabilelor a1,...,ap sunt ponderi asociate variabilelor este doar aparent unei de regresie, deoarece nu se cunosc valori observate pentru variabila W, nu termen liber nici erori(reziduri). Analiza componente principale (ACP) acele ponderi ai care variabile W. Cum poate tinde la infinit pentru valori ale ponderilor convenabil alese, metoda doar ponderile supuse vectorul a este normalizat, calculate ponderile a, variabila W este prima cu C matricea de a variabilelor X, de fapt prin transformarea datelor analiza componente principale dispersia lui W este a. Se maximizarea lui W cu 1. Se ajunge astfel la problema max cu 1 Prin metoda multiplicatorilor Lagrange se va maximul ,de unde ca metoda a este vector propriu al matricei C valorii proprii Deoarece a este vectorul propriu care corespunde celi mai mari valori proprii A doua este drept a variabilelor X cu cea mai mare Se ajunge astfel la a doua valoare proprie ca etc. De remarcat aij ponderea variabilei i cu j. O a faptului componentelor principale sunt valorile proprii, iar ponderile liniare) sunt vectorii proprii este aceea factorii (componentele principale) sunt ei, din exprimarea Table 4 Matricea valorilor proprii in functie de matricea de covarianta valorilor propii a vectorilor proprii folosind matricea de Table 5 Matricea valorilor proprii in functie de matricea de corelatie Pentru o vizualizare mai simpla am denumit liniile si coloanele: Table 6 Matricea valorilor proprii Componentele principale au 4 de 1 liniare de variabile originale ce au o ceea ce le face fie distribuite legea de 2 3 4 de de a variabilelor originale Componentele principale setului de variabile. teorema de descompunere a unei matrici simetrice: unde: matricea vectorilor matricea de a componentelor

