QuAcc/TODO.md at 6da1ef79fe1b59b8012e7c67093394c0573867ae

aggiungere media tabelle

plot; 3 tipi (appunti + email + garg)

sistemare kfcv baseline

aggiungere metodo con CC oltre SLD

prendere classe più popolosa di rcv1, togliere negativi fino a raggiungere 50/50; poi fare subsampling con 9 training prvalences (da 0.1-0.9 a 0.9-0.1)

variare parametro recalibration in SLD

fix grafico diagonal

seaborn example gallery

varianti recalib: bcts, SLD (provare exact_train_prev=False)

vedere cosa usa garg di validation size

per model selection testare il parametro c del classificatore, si esplora in np.logscale(-3,3, 7) oppure np.logscale(-4, 4, 9), parametro class_weight si esplora in None oppure “balanced”; va usato qp.model_selection.GridSearchQ in funzione di mae come errore, UPP come protocollo

qp.train_test_split per avere v_train e v_val
GridSearchQ( model: BaseQuantifier, param_grid: { ’classifier__C’: np.logspace(-3,3,7), ’classifier__class_weight’: [None, ‘balanced’], ‘recalib’: [None, ‘bcts’] }, protocol: UPP(V_val, repeats=1000), error = qp.error.mae, refit=True, timeout=-1, n_jobs=-2, verbose=True).fit(V_tr)

plot collettivo, con sulla x lo shift e prenda in considerazione tutti i training set, facendo la media sui 9 casi (ogni line è un metodo), risultati non ottimizzati e ottimizzati

salvare il best score ottenuto da ogni applicazione di GridSearchQ

nel caso di bin fare media dei due best score

import baselines

importare mandoline

mandoline può essere importato, ma richiedere uno slicing delle features a priori che devere essere realizzato ad hoc

sistemare vecchie iw baselines

non possono essere fixate perché dipendono da numpy

plot avg con train prevalence sull’asse x e media su test prevalecne

realizzare grid search per task specifico partendo da GridSearchQ

provare PACC come quantificatore

aggiungere etichette in shift plot

sistemare exact_train quapy

testare anche su imbd

aggiungere esecuzione remota via ssh

testare confidence con sia max_conf che exntropy

implementare mul3

rivedere nuove baselines

importare nuovi dataset

testare kernel density estimation (alternativa sld)

significatività statistica (lunedì ore 10.00)

usare un metodo diverso di classificazione sia di partenza che dentro quantificatore per cifar10

valutare altre possibili esplorazioni del caso binario

3.1 KiB Raw Blame History Unescape Escape

3.1 KiB

Raw Blame History