EDB/L/z1

From WikiZMSI

< EDB | L

Na zajęciach

  • Z repozytorium UCI Machine Learning Repository pobrać zbiór danych "Wisconsin Breast Cancer" (plik wdbc.data) i wczytać w Mathematice (polecenie Import).
  • Usunąć pierwszwą kolumnę przechowującą ID pacjenta.
  • Kolumnę decyzyjną Y zamapować z wartości {B, M} na wartości {-1, 1} i przenieść jako ostatnią kolumnę (polecenie Map lub Table).
  • Wyśrodkować zbiór danych (z pominięciem kolumny Y).
  • Obliczyć wariancje wszystkich atrybutów wejściowych i zwizualizować dane w rzucie na 3 atrybuty o największej wariancji (polecenie ListPointPlot3D).
  • Wyznaczyć macierz kowariancji poleceniem Covariance lub "ręcznie" (porównać wyniki).
  • Wyznaczyć wartości własne i wektory własne (PCA) za pomocą polecenia Eigensystem. Sprawdzić normę wektorów własnych.
  • Obliczyć istotności poszczególnych oryginalnych atrybutów jako: ułamkowy udział danego atrybutu w pierwszej składowej głównej.
  • Wykonać rzut danych na wektory własne (nowe współrzędne).
  • Zwizualizować nowopowstały zbiór danych dla trzech pierwszych składowych (ponownie ListPointPlot3D).