SNiASI/L/z1b

From WikiZMSI

< SNiASI | L

Spis treści

Przygotowanie danych uczących i testujących

Z repozytorium UCI Machine Learning Repository należy pobrać zbiory danych i zapoznać się z ich dokumentacją:

  1. Wisconsin Breast Cancer Databases
  2. Adult Database

Przygotowanie danych powinno obejmować kroki:

  • normalizacja - przeskalowanie wartości do zadanego przedziału
  • wartości nominalne atrybutów zamienić na numeryczne
  • dyskretyzacja - w przypadku warości ciągłych atrybutów
  • brakujące wartości - usunąć rekordy w niepełnym zestawem wartości atrybutów
  • podział danych na zbiór uczący i testujący:
    1. Podzielić zbiór danych na część trenującą i testową w stosunku 70% do 30%. Dobór próbek do zbiorów powinien być losowy. Jakość klasyfikacji oceniana tylko na zbiorze testowym.
    2. n-krotna kroswalidacja: zbiór danych dzieli się losowo na n równolicznych, rozłącznych podzbiorów (podziału dokonuje się jeden raz). Jeden ze zbiorów zostaje wyłączony jako testujący, a sieć neuronową uczy się zbiorem zawierającym próbki z n-1 zbiorów pozostałych po wyłączeniu zbioru testującego. Testowanie odbywa się na wyłączonym zbiorze testującym. Takie uczenie i testowanie powtarzane jest n-krotnie. Za każdym razem zbiór testowy jest innym z n utworzonych na początku zbiorów. Końcowa jakość klasyfikacji wyliczana jest jako średnia z wartości otrzymanych dla każdego z n testów.

Architektura sieci

Do zadania klasyfikacji należy użyć sieci MLP. W zadaniu należy zbadać różne architektury sieci: 1-2 warstwy ukryte oraz różna liczba neuronów w warstwach.

Uczenie sieci

Uczenie metodą wstecznej propagacji błędów. Dla większego zbioru uczenie wariantem podstawowym może być nieefektywne. Można wypróbować metodę Resilient Backpropagation (plik opisujący metodę Rprop.pdf).

Wymagania dotyczące programu na zliacznie

  • dst --- uczenie metodą B-P, podział danych na próbki uczące i testując w relacji 70/30, oba zbiory danych
  • db --- (to co na ocenę dst) + n-krotna walidacji
  • bdb ---(to co na ocenę db) + uczenie metodą Resilient B-P

Termin oddania programu: 4 tygodnie do zajęć wprowadzających temat. Każde opóźnienie skutkuje obniżeniem oceny.

Zakres zagadnień na wejściówkę

  1. Architektura sieci neuronowej MLP
  2. Przygotowanie danych uczących i testujących
  3. Algorytm uczenia wstecznej propagacji błędów
  4. Przeuczenie, niedouczenie sieci

Literatura L. Rutkowski "Metody i techniki sztucznej inteligencji"