SNiASI/L/z1b
From WikiZMSI
Spis treści |
[edytuj]
Przygotowanie danych uczących i testujących
Z repozytorium UCI Machine Learning Repository należy pobrać zbiory danych i zapoznać się z ich dokumentacją:
Przygotowanie danych powinno obejmować kroki:
- normalizacja - przeskalowanie wartości do zadanego przedziału
- wartości nominalne atrybutów zamienić na numeryczne
- dyskretyzacja - w przypadku warości ciągłych atrybutów
- brakujące wartości - usunąć rekordy w niepełnym zestawem wartości atrybutów
- podział danych na zbiór uczący i testujący:
- Podzielić zbiór danych na część trenującą i testową w stosunku 70% do 30%. Dobór próbek do zbiorów powinien być losowy. Jakość klasyfikacji oceniana tylko na zbiorze testowym.
- n-krotna kroswalidacja: zbiór danych dzieli się losowo na n równolicznych, rozłącznych podzbiorów (podziału dokonuje się jeden raz). Jeden ze zbiorów zostaje wyłączony jako testujący, a sieć neuronową uczy się zbiorem zawierającym próbki z n-1 zbiorów pozostałych po wyłączeniu zbioru testującego. Testowanie odbywa się na wyłączonym zbiorze testującym. Takie uczenie i testowanie powtarzane jest n-krotnie. Za każdym razem zbiór testowy jest innym z n utworzonych na początku zbiorów. Końcowa jakość klasyfikacji wyliczana jest jako średnia z wartości otrzymanych dla każdego z n testów.
[edytuj]
Architektura sieci
Do zadania klasyfikacji należy użyć sieci MLP. W zadaniu należy zbadać różne architektury sieci: 1-2 warstwy ukryte oraz różna liczba neuronów w warstwach.
[edytuj]
Uczenie sieci
Uczenie metodą wstecznej propagacji błędów. Dla większego zbioru uczenie wariantem podstawowym może być nieefektywne. Można wypróbować metodę Resilient Backpropagation (plik opisujący metodę Rprop.pdf).
[edytuj]
Wymagania dotyczące programu na zliacznie
- dst --- uczenie metodą B-P, podział danych na próbki uczące i testując w relacji 70/30, oba zbiory danych
- db --- (to co na ocenę dst) + n-krotna walidacji
- bdb ---(to co na ocenę db) + uczenie metodą Resilient B-P
Termin oddania programu: 4 tygodnie do zajęć wprowadzających temat. Każde opóźnienie skutkuje obniżeniem oceny.
[edytuj]
Zakres zagadnień na wejściówkę
- Architektura sieci neuronowej MLP
- Przygotowanie danych uczących i testujących
- Algorytm uczenia wstecznej propagacji błędów
- Przeuczenie, niedouczenie sieci
Literatura L. Rutkowski "Metody i techniki sztucznej inteligencji"