EDzGBD/L
From WikiZMSI
< EDzGBD
[edytuj]
Zbiory danych
- "Sodowrażliwość": SodiumDataset.zip. Należy wczytać plik w MATLABie i zapoznać się z jego zawartością (jak wyglądają dane, jak zdyskretyzowany jest zbiór, jak mapują się numerki na napisy, itp.). Wygodnym zabiegiem jest ustawienie zmiennej decyzyjnej dSS jako ostatniej kolumny w macierzy z danymi. Uwaga: w przypadku zamiany należy dokonać analogicznych zamian w nazwach zmiennych (varNames) i strukturze opisującej odwzorowania wartości napisowych na numery (labelMapper).
- "Łączenia exon/intron (Splice-junction Gene Sequences)": data_splice.zip. Oryginalny zbiór danych można znaleźć na stronie repozytorium UCI https://archive.ics.uci.edu/ml/datasets/Molecular+Biology+%28Splice-junction+Gene+Sequences%29. Po wczytaniu danych skryptem readSpliceData.m w pamięci zostają przygotowane zbiory danych: surowy (rawD), przetworzony (D), oraz struktury pomocnicze (varNames, labelMapper).
- "Nowotwory piersi (Wisconsin Breast Cancer)": data_wisconsin.zip. Oryginalny zbiór danych można znaleźć na stronie repozytorium UCI http://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+%28Original%29. W przetworzonym pliku (znajdującym się w zipie) etykiety klas zamieniono na numery: B (nowotwór łagodny) -> 1, M (nowotwór złośliwy) -> 2. Po wczytaniu danych skryptem readWisconsinData.m dodatkowo pominięty zostaje identyfikator pacjentki, a zmienna Y zostaje przeniesiona na koniec (ostatnia kolumna). Skrypt pozwala także na opcjonalną dyskretyzację atrybutów.
[edytuj]
Zadania
- Zadanie 1 --- Naiwny klasyfikator Bayesa
- Zadanie 2 --- Drzewa do klasyfikacji CART
- Zadanie 3 --- Indukcja reguł asocjacyjnych (algorytm A priori)
- Zadanie 4 --- Regresja z regularyzacją L2 (ridge regression)
[edytuj]
Ocena końcowa
Na ocenę końcową wpływać będzie:
- punktacja z wejściówek (40%),
- ocena z wykonanego zadania programistycznego (60%).
Programy, które okażą się plagiatami nie są zaliczane (bez możliwości poprawy) niezależnie od tego kto jest jego autorem.