PiPSSI/L/z1

Na zajęciach (sprawozdanie w domu)

Ze strony projektu WEKA należy pobrać program WEKA i zainstalować na swoim dysku. Uruchomić WEKA Explorer.

"Zostać przydzielonym" do jednego z zestawów zbiorów danych: a) diabetes, glass; b) iris, ionosphere; c) contact-lenses, weather.

Przetestować na przydzielonych zbiorach algorytmy do klasyfikacji omówione na wykładzie. Wybrać trzy algorytmy uzyskujące najlepszą poprawność w 5-krotnej krzyżowej walidacji. Na rzecz sprawozdania odnotować uzyskane poprawności oraz macierze pomyłek (confusion matrix) ze wszystkich testów.

Dla najlepszych trzech modeli wykonać następujące zabiegi a następnie sprawdzić ich wpływ na poprawność: 1) wyśrodkować zbiór, 2) w każdym ze zbiorów zbinaryzować pewien atrybut wyliczeniowy o najliczniejszej dziedzinie, 3) zdyskretyzować zmienne rzeczywistoliczbowe z nadzorem, 4) zdyskretyzować zmienne rzeczywistoliczbowe bez nadzoru (3 przedziały o równej szerokości), 5) dodać do zbioru sztuczny atrybut będący sumą atrybutów rzeczywistoliczbowych, 6) przeprowadzić selekcję atrybutów (odnotować, czy sztuczny atrybut został wskazany jako nieistotny), 7) odrzucić obiekty odstające (outliers). Uwaga: przed każdym zabiegiem przywrócić zbiór danych do postaci pierwotnej (wyjątek: 5 i 6 przeprowadzić w parze).

Za pomocą algorytmów K-means oraz EM wykonać klasteryzację zbioru danych. W każdym z algorytmów zadać liczbę klastrów równą liczbie klas w danym problemie. W algorytmie K-means ustawić jako funkcję odległości metrykę Manhattan. Zaznaczyć opcję zachowywania wyników do wizualizacji. Dla obu algorytmów odnotować odpowiednio wielkości: sum of squared errors oraz loglikelihood. Do sprawozdania zachować wybrany wykres wizualizacji przyporządkowań klastrów (w układzie: X - pewien atrybut wejściowy, Y - pewna klasa).

Za pomocą programu Experimenter wykonać zbiorczy test o 50 powtórzeniach. Jako bazowy klasyfikator wybrać klasyfikator bez reguł, jako drugi klasyfikator OneRule. Dodać do zestawu trzy wykryte wcześniej dobrze sprawdzające się algorytmy. Na poziomie istotności 0.1 odnotować, które algorytmy są istotnie lepsze/porównywalne/gorsze od pozostałych.

W domu przygotwać sprawozdanie z wykonanych badań. Zbudowane modele i eksperymenty zapisać do plików dla ewentualnego odtworzenia.