legacy created

2024-04-04 17:01:29 +02:00 · 2024-04-04 17:01:29 +02:00 · 51867f3e9c
parent 85ad127102
commit 51867f3e9c
20 changed files with 4768 additions and 0 deletions
--- a/quacc/legacy/data.py
+++ b/quacc/legacy/data.py
@ -0,0 +1,376 @@
+from typing import List, Tuple
+
+import numpy as np
+import scipy.sparse as sp
+from quapy.data import LabelledCollection
+
+# Extended classes
+#
+# 0 ~ True 0
+# 1 ~ False 1
+# 2 ~ False 0
+# 3 ~ True 1
+#      _____________________
+#     |          |          |
+#     |  True 0  |  False 1 |
+#     |__________|__________|
+#     |          |          |
+#     |  False 0 |  True 1  |
+#     |__________|__________|
+#
+
+
+def _split_index_by_pred(pred_proba: np.ndarray) -> List[np.ndarray]:
+    _pred_label = np.argmax(pred_proba, axis=1)
+    return [(_pred_label == cl).nonzero()[0] for cl in np.arange(pred_proba.shape[1])]
+
+
+class ExtensionPolicy:
+    def __init__(self, collapse_false=False, group_false=False, dense=False):
+        self.collapse_false = collapse_false
+        self.group_false = group_false
+        self.dense = dense
+
+    def qclasses(self, nbcl):
+        if self.collapse_false:
+            return np.arange(nbcl + 1)
+        elif self.group_false:
+            return np.arange(nbcl * 2)
+
+        return np.arange(nbcl**2)
+
+    def eclasses(self, nbcl):
+        return np.arange(nbcl**2)
+
+    def tfp_classes(self, nbcl):
+        if self.group_false:
+            return np.arange(2)
+        else:
+            return np.arange(nbcl)
+
+    def matrix_idx(self, nbcl):
+        if self.collapse_false:
+            _idxs = np.array([[i, i] for i in range(nbcl)] + [[0, 1]]).T
+            return tuple(_idxs)
+        elif self.group_false:
+            diag_idxs = np.diag_indices(nbcl)
+            sub_diag_idxs = tuple(
+                np.array([((i + 1) % nbcl, i) for i in range(nbcl)]).T
+            )
+            return tuple(np.concatenate(axis) for axis in zip(diag_idxs, sub_diag_idxs))
+            # def mask_fn(m, k):
+            #     n = m.shape[0]
+            #     d = np.diag(np.tile(1, n))
+            #     d[tuple(zip(*[(i, (i + 1) % n) for i in range(n)]))] = 1
+            #     return d
+
+            # _mi = np.mask_indices(nbcl, mask_func=mask_fn)
+            # print(_mi)
+            # return _mi
+        else:
+            _idxs = np.indices((nbcl, nbcl))
+            return _idxs[0].flatten(), _idxs[1].flatten()
+
+    def ext_lbl(self, nbcl):
+        if self.collapse_false:
+
+            def cf_fun(t, p):
+                return t if t == p else nbcl
+
+            return np.vectorize(cf_fun, signature="(),()->()")
+
+        elif self.group_false:
+
+            def gf_fun(t, p):
+                # if t < nbcl - 1:
+                #     return t * 2 if t == p else (t * 2) + 1
+                # else:
+                #     return t * 2 if t != p else (t * 2) + 1
+                return p if t == p else nbcl + p
+
+            return np.vectorize(gf_fun, signature="(),()->()")
+
+        else:
+
+            def default_fn(t, p):
+                return t * nbcl + p
+
+            return np.vectorize(default_fn, signature="(),()->()")
+
+    def true_lbl_from_pred(self, nbcl):
+        if self.group_false:
+            return np.vectorize(lambda t, p: 0 if t == p else 1, signature="(),()->()")
+        else:
+            return np.vectorize(lambda t, p: t, signature="(),()->()")
+
+    def can_f1(self, nbcl):
+        return nbcl == 2 or (not self.collapse_false and not self.group_false)
+
+
+class ExtendedData:
+    def __init__(
+        self,
+        instances: np.ndarray | sp.csr_matrix,
+        pred_proba: np.ndarray,
+        ext: np.ndarray = None,
+        extpol=None,
+    ):
+        self.extpol = ExtensionPolicy() if extpol is None else extpol
+        self.b_instances_ = instances
+        self.pred_proba_ = pred_proba
+        self.ext_ = ext
+        self.instances = self.__extend_instances(instances, pred_proba, ext=ext)
+
+    def __extend_instances(
+        self,
+        instances: np.ndarray | sp.csr_matrix,
+        pred_proba: np.ndarray,
+        ext: np.ndarray = None,
+    ) -> np.ndarray | sp.csr_matrix:
+        to_append = ext
+        if ext is None:
+            to_append = pred_proba
+
+        if isinstance(instances, sp.csr_matrix):
+            if self.extpol.dense:
+                n_x = to_append
+            else:
+                n_x = sp.hstack([instances, sp.csr_matrix(to_append)], format="csr")
+        elif isinstance(instances, np.ndarray):
+            _concat = [instances, to_append] if not self.extpol.dense else [to_append]
+            n_x = np.concatenate(_concat, axis=1)
+        else:
+            raise ValueError("Unsupported matrix format")
+
+        return n_x
+
+    @property
+    def X(self):
+        return self.instances
+
+    @property
+    def nbcl(self):
+        return self.pred_proba_.shape[1]
+
+    def split_by_pred(self, _indexes: List[np.ndarray] | None = None):
+        def _empty_matrix():
+            if isinstance(self.instances, np.ndarray):
+                return np.asarray([], dtype=int)
+            elif isinstance(self.instances, sp.csr_matrix):
+                return sp.csr_matrix(np.empty((0, 0), dtype=int))
+
+        if _indexes is None:
+            _indexes = _split_index_by_pred(self.pred_proba_)
+
+        _instances = [
+            self.instances[ind] if ind.shape[0] > 0 else _empty_matrix()
+            for ind in _indexes
+        ]
+
+        return _instances
+
+    def __len__(self):
+        return self.instances.shape[0]
+
+
+class ExtendedLabels:
+    def __init__(
+        self,
+        true: np.ndarray,
+        pred: np.ndarray,
+        nbcl: np.ndarray,
+        extpol: ExtensionPolicy = None,
+    ):
+        self.extpol = ExtensionPolicy() if extpol is None else extpol
+        self.true = true
+        self.pred = pred
+        self.nbcl = nbcl
+
+    @property
+    def y(self):
+        return self.extpol.ext_lbl(self.nbcl)(self.true, self.pred)
+
+    @property
+    def classes(self):
+        return self.extpol.qclasses(self.nbcl)
+
+    def __getitem__(self, idx):
+        return ExtendedLabels(self.true[idx], self.pred[idx], self.nbcl)
+
+    def split_by_pred(self, _indexes: List[np.ndarray]):
+        _labels = []
+        for cl, ind in enumerate(_indexes):
+            _true, _pred = self.true[ind], self.pred[ind]
+            assert (
+                _pred.shape[0] == 0 or (_pred == _pred[0]).all()
+            ), "index is selecting non uniform class"
+            _tfp = self.extpol.true_lbl_from_pred(self.nbcl)(_true, _pred)
+            _labels.append(_tfp)
+
+        return _labels, self.extpol.tfp_classes(self.nbcl)
+
+
+class ExtendedPrev:
+    def __init__(
+        self,
+        flat: np.ndarray,
+        nbcl: int,
+        extpol: ExtensionPolicy = None,
+    ):
+        self.flat = flat
+        self.nbcl = nbcl
+        self.extpol = ExtensionPolicy() if extpol is None else extpol
+        # self._matrix = self.__build_matrix()
+
+    def __build_matrix(self):
+        _matrix = np.zeros((self.nbcl, self.nbcl))
+        _matrix[self.extpol.matrix_idx(self.nbcl)] = self.flat
+        return _matrix
+
+    def can_f1(self):
+        return self.extpol.can_f1(self.nbcl)
+
+    @property
+    def A(self):
+        # return self._matrix
+        return self.__build_matrix()
+
+    @property
+    def classes(self):
+        return self.extpol.qclasses(self.nbcl)
+
+
+class ExtMulPrev(ExtendedPrev):
+    def __init__(
+        self,
+        flat: np.ndarray,
+        nbcl: int,
+        q_classes: list = None,
+        extpol: ExtensionPolicy = None,
+    ):
+        super().__init__(flat, nbcl, extpol=extpol)
+        self.flat = self.__check_q_classes(q_classes, flat)
+
+    def __check_q_classes(self, q_classes, flat):
+        if q_classes is None:
+            return flat
+        q_classes = np.array(q_classes)
+        _flat = np.zeros(self.extpol.qclasses(self.nbcl).shape)
+        _flat[q_classes] = flat
+        return _flat
+
+
+class ExtBinPrev(ExtendedPrev):
+    def __init__(
+        self,
+        flat: List[np.ndarray],
+        nbcl: int,
+        q_classes: List[List[int]] = None,
+        extpol: ExtensionPolicy = None,
+    ):
+        super().__init__(flat, nbcl, extpol=extpol)
+        flat = self.__check_q_classes(q_classes, flat)
+        self.flat = self.__build_flat(flat)
+
+    def __check_q_classes(self, q_classes, flat):
+        if q_classes is None:
+            return flat
+        _flat = []
+        for fl, qc in zip(flat, q_classes):
+            qc = np.array(qc)
+            _fl = np.zeros(self.extpol.tfp_classes(self.nbcl).shape)
+            _fl[qc] = fl
+            _flat.append(_fl)
+        return np.array(_flat)
+
+    def __build_flat(self, flat):
+        return np.concatenate(flat.T)
+
+
+class ExtendedCollection(LabelledCollection):
+    def __init__(
+        self,
+        instances: np.ndarray | sp.csr_matrix,
+        labels: np.ndarray,
+        pred_proba: np.ndarray = None,
+        ext: np.ndarray = None,
+        extpol=None,
+    ):
+        self.extpol = ExtensionPolicy() if extpol is None else extpol
+        e_data, e_labels = self.__extend_collection(
+            instances=instances,
+            labels=labels,
+            pred_proba=pred_proba,
+            ext=ext,
+        )
+        self.e_data_ = e_data
+        self.e_labels_ = e_labels
+        super().__init__(e_data.X, e_labels.y, classes=e_labels.classes)
+
+    @classmethod
+    def from_lc(
+        cls,
+        lc: LabelledCollection,
+        pred_proba: np.ndarray,
+        ext: np.ndarray = None,
+        extpol=None,
+    ):
+        return ExtendedCollection(
+            lc.X, lc.y, pred_proba=pred_proba, ext=ext, extpol=extpol
+        )
+
+    @property
+    def pred_proba(self):
+        return self.e_data_.pred_proba_
+
+    @property
+    def ext(self):
+        return self.e_data_.ext_
+
+    @property
+    def eX(self):
+        return self.e_data_
+
+    @property
+    def ey(self):
+        return self.e_labels_
+
+    @property
+    def n_base_classes(self):
+        return self.e_labels_.nbcl
+
+    @property
+    def n_classes(self):
+        return len(self.e_labels_.classes)
+
+    def e_prevalence(self) -> ExtendedPrev:
+        _prev = self.prevalence()
+        return ExtendedPrev(_prev, self.n_base_classes, extpol=self.extpol)
+
+    def split_by_pred(self):
+        _indexes = _split_index_by_pred(self.pred_proba)
+        _instances = self.e_data_.split_by_pred(_indexes)
+        # _labels = [self.ey[ind] for ind in _indexes]
+        _labels, _cls = self.e_labels_.split_by_pred(_indexes)
+        return [
+            LabelledCollection(inst, lbl, classes=_cls)
+            for inst, lbl in zip(_instances, _labels)
+        ]
+
+    def __extend_collection(
+        self,
+        instances: sp.csr_matrix | np.ndarray,
+        labels: np.ndarray,
+        pred_proba: np.ndarray,
+        ext: np.ndarray = None,
+        extpol=None,
+    ) -> Tuple[ExtendedData, ExtendedLabels]:
+        n_classes = pred_proba.shape[1]
+        # n_X = [ X | predicted probs. ]
+        e_instances = ExtendedData(instances, pred_proba, ext=ext, extpol=self.extpol)
+
+        # n_y = (exptected y, predicted y)
+        preds = np.argmax(pred_proba, axis=-1)
+        e_labels = ExtendedLabels(labels, preds, n_classes, extpol=self.extpol)
+
+        return e_instances, e_labels
--- a/quacc/legacy/environment.py
+++ b/quacc/legacy/environment.py
@ -0,0 +1,86 @@
+from contextlib import contextmanager
+
+import numpy as np
+import quapy as qp
+import yaml
+
+
+class environ:
+    _default_env = {
+        "DATASET_NAME": None,
+        "DATASET_TARGET": None,
+        "METRICS": [],
+        "COMP_ESTIMATORS": [],
+        "DATASET_N_PREVS": 9,
+        "DATASET_PREVS": None,
+        "OUT_DIR_NAME": "output",
+        "OUT_DIR": None,
+        "PLOT_DIR_NAME": "plot",
+        "PLOT_OUT_DIR": None,
+        "DATASET_DIR_UPDATE": False,
+        "PROTOCOL_N_PREVS": 21,
+        "PROTOCOL_REPEATS": 100,
+        "SAMPLE_SIZE": 1000,
+        # "PLOT_ESTIMATORS": [],
+        "PLOT_STDEV": False,
+        "_R_SEED": 0,
+        "N_JOBS": 1,
+    }
+    _keys = list(_default_env.keys())
+
+    def __init__(self):
+        self.__load_file()
+
+    def __load_file(self):
+        _state = environ._default_env.copy()
+
+        with open("conf.yaml", "r") as f:
+            confs = yaml.safe_load(f)["exec"]
+
+        _state = _state | confs["global"]
+        self.__setdict(_state)
+        self._confs = confs["confs"]
+
+    def __setdict(self, d: dict):
+        for k, v in d.items():
+            super().__setattr__(k, v)
+            match k:
+                case "SAMPLE_SIZE":
+                    qp.environ["SAMPLE_SIZE"] = v
+                case "_R_SEED":
+                    qp.environ["_R_SEED"] = v
+                    np.random.seed(v)
+
+    def to_dict(self) -> dict:
+        return {k: self.__getattribute__(k) for k in environ._keys}
+
+    @property
+    def confs(self):
+        return self._confs.copy()
+
+    @contextmanager
+    def load(self, conf):
+        __current = self.to_dict()
+        __np_random_state = np.random.get_state()
+
+        if conf is None:
+            conf = {}
+
+        if isinstance(conf, environ):
+            conf = conf.to_dict()
+
+        self.__setdict(conf)
+
+        try:
+            yield
+        finally:
+            self.__setdict(__current)
+            np.random.set_state(__np_random_state)
+
+    def load_confs(self):
+        for c in self.confs:
+            with self.load(c):
+                yield c
+
+
+env = environ()
--- a/quacc/legacy/evaluation/init.py
+++ b/quacc/legacy/evaluation/init.py
--- a/quacc/legacy/evaluation/alt.py
+++ b/quacc/legacy/evaluation/alt.py
@ -0,0 +1,115 @@
+from functools import wraps
+
+import numpy as np
+import quapy.functional as F
+import sklearn.metrics as metrics
+from quapy.method.aggregative import ACC, EMQ
+from sklearn import clone
+from sklearn.linear_model import LogisticRegression
+
+import quacc as qc
+from quacc.legacy.evaluation.report import EvaluationReport
+
+_alts = {}
+
+
+def alt(func):
+    @wraps(func)
+    def wrapper(c_model, validation, protocol):
+        return func(c_model, validation, protocol)
+
+    wrapper.name = func.__name__
+    _alts[func.__name__] = wrapper
+
+    return wrapper
+
+
+@alt
+def cross(c_model, validation, protocol):
+    y_val = validation.labels
+    y_hat_val = c_model.predict(validation.instances)
+
+    qcls = clone(c_model)
+    qcls.fit(*validation.Xy)
+
+    er = EvaluationReport(name="cross")
+    for sample in protocol():
+        y_hat = c_model.predict(sample.instances)
+        y = sample.labels
+        ground_acc = (y_hat == y).mean()
+        ground_f1 = metrics.f1_score(y, y_hat, zero_division=0)
+
+        q = EMQ(qcls)
+        q.fit(validation, fit_classifier=False)
+
+        M_hat = ACC.getPteCondEstim(validation.classes_, y_val, y_hat_val)
+        p_hat = q.quantify(sample.instances)
+        cont_table_hat = p_hat * M_hat
+
+        acc_score = qc.error.acc(cont_table_hat)
+        f1_score = qc.error.f1(cont_table_hat)
+
+        meta_acc = abs(acc_score - ground_acc)
+        meta_f1 = abs(f1_score - ground_f1)
+        er.append_row(
+            sample.prevalence(),
+            acc=meta_acc,
+            f1=meta_f1,
+            acc_score=acc_score,
+            f1_score=f1_score,
+        )
+
+    return er
+
+
+@alt
+def cross2(c_model, validation, protocol):
+    classes = validation.classes_
+    y_val = validation.labels
+    y_hat_val = c_model.predict(validation.instances)
+    M_hat = ACC.getPteCondEstim(classes, y_val, y_hat_val)
+    pos_prev_val = validation.prevalence()[1]
+
+    er = EvaluationReport(name="cross2")
+    for sample in protocol():
+        y_test = sample.labels
+        y_hat_test = c_model.predict(sample.instances)
+        ground_acc = (y_hat_test == y_test).mean()
+        ground_f1 = metrics.f1_score(y_test, y_hat_test, zero_division=0)
+        pos_prev_cc = F.prevalence_from_labels(y_hat_test, classes)[1]
+        tpr_hat = M_hat[1, 1]
+        fpr_hat = M_hat[1, 0]
+        tnr_hat = M_hat[0, 0]
+        pos_prev_test_hat = (pos_prev_cc - fpr_hat) / (tpr_hat - fpr_hat)
+        pos_prev_test_hat = np.clip(pos_prev_test_hat, 0, 1)
+
+        if pos_prev_val > 0.5:
+            # in this case, the tpr might be a more reliable estimate than tnr
+            A = np.asarray(
+                [[0, 0, 1, 1], [0, 1, 0, 1], [1, 1, 1, 1], [0, tpr_hat, 0, tpr_hat - 1]]
+            )
+        else:
+            # in this case, the tnr might be a more reliable estimate than tpr
+            A = np.asarray(
+                [[0, 0, 1, 1], [0, 1, 0, 1], [1, 1, 1, 1], [tnr_hat - 1, 0, tnr_hat, 0]]
+            )
+
+        b = np.asarray([pos_prev_cc, pos_prev_test_hat, 1, 0])
+
+        tn, fn, fp, tp = np.linalg.solve(A, b)
+        cont_table_hat = np.array([[tn, fp], [fn, tp]])
+
+        acc_score = qc.error.acc(cont_table_hat)
+        f1_score = qc.error.f1(cont_table_hat)
+
+        meta_acc = abs(acc_score - ground_acc)
+        meta_f1 = abs(f1_score - ground_f1)
+        er.append_row(
+            sample.prevalence(),
+            acc=meta_acc,
+            f1=meta_f1,
+            acc_score=acc_score,
+            f1_score=f1_score,
+        )
+
+    return er
--- a/quacc/legacy/evaluation/baseline.py
+++ b/quacc/legacy/evaluation/baseline.py
@ -0,0 +1,590 @@
+from functools import wraps
+from statistics import mean
+
+import numpy as np
+import sklearn.metrics as metrics
+from quapy.data import LabelledCollection
+from quapy.protocol import APP, AbstractStochasticSeededProtocol
+from scipy.sparse import issparse
+from sklearn.base import BaseEstimator
+from sklearn.linear_model import LinearRegression
+from sklearn.model_selection import cross_validate
+
+import baselines.atc as atc
+import baselines.doc as doclib
+import baselines.gde as gdelib
+import baselines.impweight as iw
+import baselines.mandoline as mandolib
+import baselines.rca as rcalib
+from baselines.utils import clone_fit
+from quacc.legacy.environment import env
+
+from .report import EvaluationReport
+
+_baselines = {}
+
+
+def baseline(func):
+    @wraps(func)
+    def wrapper(c_model, validation, protocol):
+        return func(c_model, validation, protocol)
+
+    wrapper.name = func.__name__
+    _baselines[func.__name__] = wrapper
+
+    return wrapper
+
+
+@baseline
+def kfcv(
+    c_model: BaseEstimator,
+    validation: LabelledCollection,
+    protocol: AbstractStochasticSeededProtocol,
+    predict_method="predict",
+):
+    c_model_predict = getattr(c_model, predict_method)
+    f1_average = "binary" if validation.n_classes == 2 else "macro"
+
+    scoring = ["accuracy", "f1_macro"]
+    scores = cross_validate(c_model, validation.X, validation.y, scoring=scoring)
+    acc_score = mean(scores["test_accuracy"])
+    f1_score = mean(scores["test_f1_macro"])
+
+    report = EvaluationReport(name="kfcv")
+    for test in protocol():
+        test_preds = c_model_predict(test.X)
+        meta_acc = abs(acc_score - metrics.accuracy_score(test.y, test_preds))
+        meta_f1 = abs(
+            f1_score - metrics.f1_score(test.y, test_preds, average=f1_average)
+        )
+        report.append_row(
+            test.prevalence(),
+            acc_score=acc_score,
+            f1_score=f1_score,
+            acc=meta_acc,
+            f1=meta_f1,
+        )
+
+    return report
+
+
+@baseline
+def ref(
+    c_model: BaseEstimator,
+    validation: LabelledCollection,
+    protocol: AbstractStochasticSeededProtocol,
+):
+    c_model_predict = getattr(c_model, "predict")
+    f1_average = "binary" if validation.n_classes == 2 else "macro"
+
+    report = EvaluationReport(name="ref")
+    for test in protocol():
+        test_preds = c_model_predict(test.X)
+        report.append_row(
+            test.prevalence(),
+            acc_score=metrics.accuracy_score(test.y, test_preds),
+            f1_score=metrics.f1_score(test.y, test_preds, average=f1_average),
+        )
+
+    return report
+
+
+@baseline
+def naive(
+    c_model: BaseEstimator,
+    validation: LabelledCollection,
+    protocol: AbstractStochasticSeededProtocol,
+    predict_method="predict",
+):
+    c_model_predict = getattr(c_model, predict_method)
+    f1_average = "binary" if validation.n_classes == 2 else "macro"
+
+    val_preds = c_model_predict(validation.X)
+    val_acc = metrics.accuracy_score(validation.y, val_preds)
+    val_f1 = metrics.f1_score(validation.y, val_preds, average=f1_average)
+
+    report = EvaluationReport(name="naive")
+    for test in protocol():
+        test_preds = c_model_predict(test.X)
+        test_acc = metrics.accuracy_score(test.y, test_preds)
+        test_f1 = metrics.f1_score(test.y, test_preds, average=f1_average)
+        meta_acc = abs(val_acc - test_acc)
+        meta_f1 = abs(val_f1 - test_f1)
+        report.append_row(
+            test.prevalence(),
+            acc_score=val_acc,
+            f1_score=val_f1,
+            acc=meta_acc,
+            f1=meta_f1,
+        )
+
+    return report
+
+
+@baseline
+def mandoline(
+    c_model: BaseEstimator,
+    validation: LabelledCollection,
+    protocol: AbstractStochasticSeededProtocol,
+    predict_method="predict_proba",
+) -> EvaluationReport:
+    c_model_predict = getattr(c_model, predict_method)
+
+    val_probs = c_model_predict(validation.X)
+    val_preds = np.argmax(val_probs, axis=1)
+    D_val = mandolib.get_slices(val_probs)
+    emprical_mat_list_val = (1.0 * (val_preds == validation.y))[:, np.newaxis]
+
+    report = EvaluationReport(name="mandoline")
+    for test in protocol():
+        test_probs = c_model_predict(test.X)
+        test_pred = np.argmax(test_probs, axis=1)
+        D_test = mandolib.get_slices(test_probs)
+        wp = mandolib.estimate_performance(D_val, D_test, None, emprical_mat_list_val)
+        score = wp.all_estimates[0].weighted[0]
+        meta_score = abs(score - metrics.accuracy_score(test.y, test_pred))
+        report.append_row(test.prevalence(), acc=meta_score, acc_score=score)
+
+    return report
+
+
+@baseline
+def rca(
+    c_model: BaseEstimator,
+    validation: LabelledCollection,
+    protocol: AbstractStochasticSeededProtocol,
+    predict_method="predict",
+):
+    """elsahar19"""
+    c_model_predict = getattr(c_model, predict_method)
+    f1_average = "binary" if validation.n_classes == 2 else "macro"
+    val1, val2 = validation.split_stratified(train_prop=0.5, random_state=env._R_SEED)
+    val1_pred1 = c_model_predict(val1.X)
+
+    val2_protocol = APP(
+        val2,
+        n_prevalences=21,
+        repeats=100,
+        return_type="labelled_collection",
+    )
+    val2_prot_preds = []
+    val2_rca = []
+    val2_prot_preds = []
+    val2_prot_y = []
+    for v2 in val2_protocol():
+        _preds = c_model_predict(v2.X)
+        try:
+            c_model2 = clone_fit(c_model, v2.X, _preds)
+            c_model2_predict = getattr(c_model2, predict_method)
+            val1_pred2 = c_model2_predict(val1.X)
+            rca_score = 1.0 - rcalib.get_score(val1_pred1, val1_pred2, val1.y)
+            val2_rca.append(rca_score)
+            val2_prot_preds.append(_preds)
+            val2_prot_y.append(v2.y)
+        except ValueError:
+            pass
+
+    val_targets_acc = np.array(
+        [
+            metrics.accuracy_score(v2_y, v2_preds)
+            for v2_y, v2_preds in zip(val2_prot_y, val2_prot_preds)
+        ]
+    )
+    reg_acc = LinearRegression().fit(np.array(val2_rca)[:, np.newaxis], val_targets_acc)
+    val_targets_f1 = np.array(
+        [
+            metrics.f1_score(v2_y, v2_preds, average=f1_average)
+            for v2_y, v2_preds in zip(val2_prot_y, val2_prot_preds)
+        ]
+    )
+    reg_f1 = LinearRegression().fit(np.array(val2_rca)[:, np.newaxis], val_targets_f1)
+
+    report = EvaluationReport(name="rca")
+    for test in protocol():
+        try:
+            test_preds = c_model_predict(test.X)
+            c_model2 = clone_fit(c_model, test.X, test_preds)
+            c_model2_predict = getattr(c_model2, predict_method)
+            val1_pred2 = c_model2_predict(val1.X)
+            rca_score = 1.0 - rcalib.get_score(val1_pred1, val1_pred2, val1.y)
+            acc_score = reg_acc.predict(np.array([[rca_score]]))[0]
+            f1_score = reg_f1.predict(np.array([[rca_score]]))[0]
+            meta_acc = abs(acc_score - metrics.accuracy_score(test.y, test_preds))
+            meta_f1 = abs(
+                f1_score - metrics.f1_score(test.y, test_preds, average=f1_average)
+            )
+            report.append_row(
+                test.prevalence(),
+                acc=meta_acc,
+                acc_score=acc_score,
+                f1=meta_f1,
+                f1_score=f1_score,
+            )
+        except ValueError:
+            report.append_row(
+                test.prevalence(),
+                acc=np.nan,
+                acc_score=np.nan,
+                f1=np.nan,
+                f1_score=np.nan,
+            )
+
+    return report
+
+
+@baseline
+def rca_star(
+    c_model: BaseEstimator,
+    validation: LabelledCollection,
+    protocol: AbstractStochasticSeededProtocol,
+    predict_method="predict",
+):
+    """elsahar19"""
+    c_model_predict = getattr(c_model, predict_method)
+    f1_average = "binary" if validation.n_classes == 2 else "macro"
+    validation1, val2 = validation.split_stratified(
+        train_prop=0.5, random_state=env._R_SEED
+    )
+    val11, val12 = validation1.split_stratified(
+        train_prop=0.5, random_state=env._R_SEED
+    )
+
+    val11_pred = c_model_predict(val11.X)
+    c_model1 = clone_fit(c_model, val11.X, val11_pred)
+    c_model1_predict = getattr(c_model1, predict_method)
+    val12_pred1 = c_model1_predict(val12.X)
+
+    val2_protocol = APP(
+        val2,
+        n_prevalences=21,
+        repeats=100,
+        return_type="labelled_collection",
+    )
+    val2_prot_preds = []
+    val2_rca = []
+    val2_prot_preds = []
+    val2_prot_y = []
+    for v2 in val2_protocol():
+        _preds = c_model_predict(v2.X)
+        try:
+            c_model2 = clone_fit(c_model, v2.X, _preds)
+            c_model2_predict = getattr(c_model2, predict_method)
+            val12_pred2 = c_model2_predict(val12.X)
+            rca_score = 1.0 - rcalib.get_score(val12_pred1, val12_pred2, val12.y)
+            val2_rca.append(rca_score)
+            val2_prot_preds.append(_preds)
+            val2_prot_y.append(v2.y)
+        except ValueError:
+            pass
+
+    val_targets_acc = np.array(
+        [
+            metrics.accuracy_score(v2_y, v2_preds)
+            for v2_y, v2_preds in zip(val2_prot_y, val2_prot_preds)
+        ]
+    )
+    reg_acc = LinearRegression().fit(np.array(val2_rca)[:, np.newaxis], val_targets_acc)
+    val_targets_f1 = np.array(
+        [
+            metrics.f1_score(v2_y, v2_preds, average=f1_average)
+            for v2_y, v2_preds in zip(val2_prot_y, val2_prot_preds)
+        ]
+    )
+    reg_f1 = LinearRegression().fit(np.array(val2_rca)[:, np.newaxis], val_targets_f1)
+
+    report = EvaluationReport(name="rca_star")
+    for test in protocol():
+        try:
+            test_pred = c_model_predict(test.X)
+            c_model2 = clone_fit(c_model, test.X, test_pred)
+            c_model2_predict = getattr(c_model2, predict_method)
+            val12_pred2 = c_model2_predict(val12.X)
+            rca_star_score = 1.0 - rcalib.get_score(val12_pred1, val12_pred2, val12.y)
+            acc_score = reg_acc.predict(np.array([[rca_star_score]]))[0]
+            f1_score = reg_f1.predict(np.array([[rca_score]]))[0]
+            meta_acc = abs(acc_score - metrics.accuracy_score(test.y, test_pred))
+            meta_f1 = abs(
+                f1_score - metrics.f1_score(test.y, test_pred, average=f1_average)
+            )
+            report.append_row(
+                test.prevalence(),
+                acc=meta_acc,
+                acc_score=acc_score,
+                f1=meta_f1,
+                f1_score=f1_score,
+            )
+        except ValueError:
+            report.append_row(
+                test.prevalence(),
+                acc=np.nan,
+                acc_score=np.nan,
+                f1=np.nan,
+                f1_score=np.nan,
+            )
+
+    return report
+
+
+@baseline
+def atc_mc(
+    c_model: BaseEstimator,
+    validation: LabelledCollection,
+    protocol: AbstractStochasticSeededProtocol,
+    predict_method="predict_proba",
+):
+    """garg"""
+    c_model_predict = getattr(c_model, predict_method)
+    f1_average = "binary" if validation.n_classes == 2 else "macro"
+
+    ## Load ID validation data probs and labels
+    val_probs, val_labels = c_model_predict(validation.X), validation.y
+
+    ## score function, e.g., negative entropy or argmax confidence
+    val_scores = atc.get_max_conf(val_probs)
+    val_preds = np.argmax(val_probs, axis=-1)
+    _, atc_thres = atc.find_ATC_threshold(val_scores, val_labels == val_preds)
+
+    report = EvaluationReport(name="atc_mc")
+    for test in protocol():
+        ## Load OOD test data probs
+        test_probs = c_model_predict(test.X)
+        test_preds = np.argmax(test_probs, axis=-1)
+        test_scores = atc.get_max_conf(test_probs)
+        atc_accuracy = atc.get_ATC_acc(atc_thres, test_scores)
+        meta_acc = abs(atc_accuracy - metrics.accuracy_score(test.y, test_preds))
+        f1_score = atc.get_ATC_f1(
+            atc_thres, test_scores, test_probs, average=f1_average
+        )
+        meta_f1 = abs(
+            f1_score - metrics.f1_score(test.y, test_preds, average=f1_average)
+        )
+        report.append_row(
+            test.prevalence(),
+            acc=meta_acc,
+            acc_score=atc_accuracy,
+            f1_score=f1_score,
+            f1=meta_f1,
+        )
+
+    return report
+
+
+@baseline
+def atc_ne(
+    c_model: BaseEstimator,
+    validation: LabelledCollection,
+    protocol: AbstractStochasticSeededProtocol,
+    predict_method="predict_proba",
+):
+    """garg"""
+    c_model_predict = getattr(c_model, predict_method)
+    f1_average = "binary" if validation.n_classes == 2 else "macro"
+
+    ## Load ID validation data probs and labels
+    val_probs, val_labels = c_model_predict(validation.X), validation.y
+
+    ## score function, e.g., negative entropy or argmax confidence
+    val_scores = atc.get_entropy(val_probs)
+    val_preds = np.argmax(val_probs, axis=-1)
+    _, atc_thres = atc.find_ATC_threshold(val_scores, val_labels == val_preds)
+
+    report = EvaluationReport(name="atc_ne")
+    for test in protocol():
+        ## Load OOD test data probs
+        test_probs = c_model_predict(test.X)
+        test_preds = np.argmax(test_probs, axis=-1)
+        test_scores = atc.get_entropy(test_probs)
+        atc_accuracy = atc.get_ATC_acc(atc_thres, test_scores)
+        meta_acc = abs(atc_accuracy - metrics.accuracy_score(test.y, test_preds))
+        f1_score = atc.get_ATC_f1(
+            atc_thres, test_scores, test_probs, average=f1_average
+        )
+        meta_f1 = abs(
+            f1_score - metrics.f1_score(test.y, test_preds, average=f1_average)
+        )
+        report.append_row(
+            test.prevalence(),
+            acc=meta_acc,
+            acc_score=atc_accuracy,
+            f1_score=f1_score,
+            f1=meta_f1,
+        )
+
+    return report
+
+
+@baseline
+def doc(
+    c_model: BaseEstimator,
+    validation: LabelledCollection,
+    protocol: AbstractStochasticSeededProtocol,
+    predict_method="predict_proba",
+):
+    c_model_predict = getattr(c_model, predict_method)
+    f1_average = "binary" if validation.n_classes == 2 else "macro"
+
+    val1, val2 = validation.split_stratified(train_prop=0.5, random_state=env._R_SEED)
+    val1_probs = c_model_predict(val1.X)
+    val1_mc = np.max(val1_probs, axis=-1)
+    val1_preds = np.argmax(val1_probs, axis=-1)
+    val1_acc = metrics.accuracy_score(val1.y, val1_preds)
+    val1_f1 = metrics.f1_score(val1.y, val1_preds, average=f1_average)
+    val2_protocol = APP(
+        val2,
+        n_prevalences=21,
+        repeats=100,
+        return_type="labelled_collection",
+    )
+    val2_prot_mc = []
+    val2_prot_preds = []
+    val2_prot_y = []
+    for v2 in val2_protocol():
+        _probs = c_model_predict(v2.X)
+        _mc = np.max(_probs, axis=-1)
+        _preds = np.argmax(_probs, axis=-1)
+        val2_prot_mc.append(_mc)
+        val2_prot_preds.append(_preds)
+        val2_prot_y.append(v2.y)
+
+    val_scores = np.array([doclib.get_doc(val1_mc, v2_mc) for v2_mc in val2_prot_mc])
+    val_targets_acc = np.array(
+        [
+            val1_acc - metrics.accuracy_score(v2_y, v2_preds)
+            for v2_y, v2_preds in zip(val2_prot_y, val2_prot_preds)
+        ]
+    )
+    reg_acc = LinearRegression().fit(val_scores[:, np.newaxis], val_targets_acc)
+    val_targets_f1 = np.array(
+        [
+            val1_f1 - metrics.f1_score(v2_y, v2_preds, average=f1_average)
+            for v2_y, v2_preds in zip(val2_prot_y, val2_prot_preds)
+        ]
+    )
+    reg_f1 = LinearRegression().fit(val_scores[:, np.newaxis], val_targets_f1)
+
+    report = EvaluationReport(name="doc")
+    for test in protocol():
+        test_probs = c_model_predict(test.X)
+        test_preds = np.argmax(test_probs, axis=-1)
+        test_mc = np.max(test_probs, axis=-1)
+        acc_score = (
+            val1_acc
+            - reg_acc.predict(np.array([[doclib.get_doc(val1_mc, test_mc)]]))[0]
+        )
+        f1_score = (
+            val1_f1 - reg_f1.predict(np.array([[doclib.get_doc(val1_mc, test_mc)]]))[0]
+        )
+        meta_acc = abs(acc_score - metrics.accuracy_score(test.y, test_preds))
+        meta_f1 = abs(
+            f1_score - metrics.f1_score(test.y, test_preds, average=f1_average)
+        )
+        report.append_row(
+            test.prevalence(),
+            acc=meta_acc,
+            acc_score=acc_score,
+            f1=meta_f1,
+            f1_score=f1_score,
+        )
+
+    return report
+
+
+@baseline
+def doc_feat(
+    c_model: BaseEstimator,
+    validation: LabelledCollection,
+    protocol: AbstractStochasticSeededProtocol,
+    predict_method="predict_proba",
+):
+    c_model_predict = getattr(c_model, predict_method)
+
+    val_probs, val_labels = c_model_predict(validation.X), validation.y
+    val_scores = np.max(val_probs, axis=-1)
+    val_preds = np.argmax(val_probs, axis=-1)
+    v1acc = np.mean(val_preds == val_labels) * 100
+
+    report = EvaluationReport(name="doc_feat")
+    for test in protocol():
+        test_probs = c_model_predict(test.X)
+        test_preds = np.argmax(test_probs, axis=-1)
+        test_scores = np.max(test_probs, axis=-1)
+        score = (v1acc + doc.get_doc(val_scores, test_scores)) / 100.0
+        meta_acc = abs(score - metrics.accuracy_score(test.y, test_preds))
+        report.append_row(test.prevalence(), acc=meta_acc, acc_score=score)
+
+    return report
+
+
+@baseline
+def gde(
+    c_model: BaseEstimator,
+    validation: LabelledCollection,
+    protocol: AbstractStochasticSeededProtocol,
+    predict_method="predict",
+) -> EvaluationReport:
+    c_model_predict = getattr(c_model, predict_method)
+    val1, val2 = validation.split_stratified(train_prop=0.5, random_state=env._R_SEED)
+    c_model1 = clone_fit(c_model, val1.X, val1.y)
+    c_model1_predict = getattr(c_model1, predict_method)
+    c_model2 = clone_fit(c_model, val2.X, val2.y)
+    c_model2_predict = getattr(c_model2, predict_method)
+
+    report = EvaluationReport(name="gde")
+    for test in protocol():
+        test_pred = c_model_predict(test.X)
+        test_pred1 = c_model1_predict(test.X)
+        test_pred2 = c_model2_predict(test.X)
+        score = gdelib.get_score(test_pred1, test_pred2)
+        meta_score = abs(score - metrics.accuracy_score(test.y, test_pred))
+        report.append_row(test.prevalence(), acc=meta_score, acc_score=score)
+
+    return report
+
+
+@baseline
+def logreg(
+    c_model: BaseEstimator,
+    validation: LabelledCollection,
+    protocol: AbstractStochasticSeededProtocol,
+    predict_method="predict",
+):
+    c_model_predict = getattr(c_model, predict_method)
+
+    val_preds = c_model_predict(validation.X)
+
+    report = EvaluationReport(name="logreg")
+    for test in protocol():
+        wx = iw.logreg(validation.X, validation.y, test.X)
+        test_preds = c_model_predict(test.X)
+        estim_acc = iw.get_acc(val_preds, validation.y, wx)
+        true_acc = metrics.accuracy_score(test.y, test_preds)
+        meta_score = abs(estim_acc - true_acc)
+        report.append_row(test.prevalence(), acc=meta_score, acc_score=estim_acc)
+
+    return report
+
+
+@baseline
+def kdex2(
+    c_model: BaseEstimator,
+    validation: LabelledCollection,
+    protocol: AbstractStochasticSeededProtocol,
+    predict_method="predict",
+):
+    c_model_predict = getattr(c_model, predict_method)
+
+    val_preds = c_model_predict(validation.X)
+    log_likelihood_val = iw.kdex2_lltr(validation.X)
+    Xval = validation.X.toarray() if issparse(validation.X) else validation.X
+
+    report = EvaluationReport(name="kdex2")
+    for test in protocol():
+        Xte = test.X.toarray() if issparse(test.X) else test.X
+        wx = iw.kdex2_weights(Xval, Xte, log_likelihood_val)
+        test_preds = c_model_predict(Xte)
+        estim_acc = iw.get_acc(val_preds, validation.y, wx)
+        true_acc = metrics.accuracy_score(test.y, test_preds)
+        meta_score = abs(estim_acc - true_acc)
+        report.append_row(test.prevalence(), acc=meta_score, acc_score=estim_acc)
+
+    return report
--- a/quacc/legacy/evaluation/comp.py
+++ b/quacc/legacy/evaluation/comp.py
@ -0,0 +1,121 @@
+import os
+import time
+from traceback import print_exception as traceback
+
+import numpy as np
+import pandas as pd
+import quapy as qp
+from joblib import Parallel, delayed
+from quapy.protocol import APP
+from sklearn.linear_model import LogisticRegression
+
+from quacc import logger
+from quacc.dataset import Dataset
+from quacc.legacy.environment import env
+from quacc.legacy.evaluation.estimators import CE
+from quacc.legacy.evaluation.report import CompReport, DatasetReport
+from quacc.utils.commons import parallel
+
+# from quacc.logger import logger, logger_manager
+
+# from quacc.evaluation.worker import WorkerArgs, estimate_worker
+
+pd.set_option("display.float_format", "{:.4f}".format)
+# qp.environ["SAMPLE_SIZE"] = env.SAMPLE_SIZE
+
+
+def estimate_worker(_estimate, train, validation, test, q=None):
+    # qp.environ["SAMPLE_SIZE"] = env.SAMPLE_SIZE
+    log = logger.setup_worker_logger(q)
+
+    model = LogisticRegression()
+
+    model.fit(*train.Xy)
+    protocol = APP(
+        test,
+        n_prevalences=env.PROTOCOL_N_PREVS,
+        repeats=env.PROTOCOL_REPEATS,
+        return_type="labelled_collection",
+        random_state=env._R_SEED,
+    )
+    start = time.time()
+    try:
+        result = _estimate(model, validation, protocol)
+    except Exception as e:
+        log.warning(f"Method {_estimate.name} failed. Exception: {e}")
+        traceback(e)
+        return None
+
+    result.time = time.time() - start
+    log.info(f"{_estimate.name} finished [took {result.time:.4f}s]")
+
+    logger.logger_manager().rm_worker()
+
+    return result
+
+
+def split_tasks(estimators, train, validation, test, q):
+    _par, _seq = [], []
+    for estim in estimators:
+        if hasattr(estim, "nocall"):
+            continue
+        _task = [estim, train, validation, test]
+        match estim.name:
+            case n if n.endswith("_gs"):
+                _seq.append(_task)
+            case _:
+                _par.append(_task + [q])
+
+    return _par, _seq
+
+
+def evaluate_comparison(dataset: Dataset, estimators=None) -> DatasetReport:
+    # log = Logger.logger()
+    log = logger.logger()
+    # with multiprocessing.Pool(1) as pool:
+    __pool_size = round(os.cpu_count() * 0.8)
+    # with multiprocessing.Pool(__pool_size) as pool:
+    dr = DatasetReport(dataset.name)
+    log.info(f"dataset {dataset.name} [pool size: {__pool_size}]")
+    for d in dataset():
+        log.info(
+            f"Dataset sample {np.around(d.train_prev, decimals=2)} "
+            f"of dataset {dataset.name} started"
+        )
+        par_tasks, seq_tasks = split_tasks(
+            CE.func[estimators],
+            d.train,
+            d.validation,
+            d.test,
+            logger.logger_manager().q,
+        )
+        try:
+            tstart = time.time()
+            results = parallel(estimate_worker, par_tasks, n_jobs=env.N_JOBS, _env=env)
+            results += parallel(estimate_worker, seq_tasks, n_jobs=1, _env=env)
+            results = [r for r in results if r is not None]
+
+            g_time = time.time() - tstart
+            log.info(
+                f"Dataset sample {np.around(d.train_prev, decimals=2)} "
+                f"of dataset {dataset.name} finished "
+                f"[took {g_time:.4f}s]"
+            )
+
+            cr = CompReport(
+                results,
+                name=dataset.name,
+                train_prev=d.train_prev,
+                valid_prev=d.validation_prev,
+                g_time=g_time,
+            )
+            dr += cr
+
+        except Exception as e:
+            log.warning(
+                f"Dataset sample {np.around(d.train_prev, decimals=2)} "
+                f"of dataset {dataset.name} failed. "
+                f"Exception: {e}"
+            )
+            traceback(e)
+    return dr
--- a/quacc/legacy/evaluation/estimators.py
+++ b/quacc/legacy/evaluation/estimators.py
@ -0,0 +1,112 @@
+from typing import List
+
+import numpy as np
+
+from quacc.legacy.evaluation import alt, baseline, method
+
+
+class CompEstimatorFunc_:
+    def __init__(self, ce):
+        self.ce = ce
+
+    def __getitem__(self, e: str | List[str]):
+        if isinstance(e, str):
+            return list(self.ce._CompEstimator__get(e).values())[0]
+        elif isinstance(e, list):
+            return list(self.ce._CompEstimator__get(e).values())
+
+
+class CompEstimatorName_:
+    def __init__(self, ce):
+        self.ce = ce
+
+    def __getitem__(self, e: str | List[str]):
+        if isinstance(e, str):
+            return list(self.ce._CompEstimator__get(e).keys())[0]
+        elif isinstance(e, list):
+            return list(self.ce._CompEstimator__get(e).keys())
+
+    def sort(self, e: List[str]):
+        return list(self.ce._CompEstimator__get(e, get_ref=False).keys())
+
+    @property
+    def all(self):
+        return list(self.ce._CompEstimator__get("__all").keys())
+
+    @property
+    def baselines(self):
+        return list(self.ce._CompEstimator__get("__baselines").keys())
+
+
+class CompEstimator:
+    def __get(cls, e: str | List[str], get_ref=True):
+        _dict = alt._alts | baseline._baselines | method._methods
+
+        if isinstance(e, str) and e == "__all":
+            e = list(_dict.keys())
+        if isinstance(e, str) and e == "__baselines":
+            e = list(baseline._baselines.keys())
+
+        if isinstance(e, str):
+            try:
+                return {e: _dict[e]}
+            except KeyError:
+                raise KeyError(f"Invalid estimator: estimator {e} does not exist")
+        elif isinstance(e, list) or isinstance(e, np.ndarray):
+            _subtr = np.setdiff1d(e, list(_dict.keys()))
+            if len(_subtr) > 0:
+                raise KeyError(
+                    f"Invalid estimator: estimator {_subtr[0]} does not exist"
+                )
+
+            e_fun = {k: fun for k, fun in _dict.items() if k in e}
+            if get_ref and "ref" not in e:
+                e_fun["ref"] = _dict["ref"]
+            elif not get_ref and "ref" in e:
+                del e_fun["ref"]
+
+            return e_fun
+
+    @property
+    def name(self):
+        return CompEstimatorName_(self)
+
+    @property
+    def func(self):
+        return CompEstimatorFunc_(self)
+
+
+CE = CompEstimator()
+
+_renames = {
+    "bin_sld_lr": "(2x2)_SLD_LR",
+    "mul_sld_lr": "(1x4)_SLD_LR",
+    "m3w_sld_lr": "(1x3)_SLD_LR",
+    "d_bin_sld_lr": "d_(2x2)_SLD_LR",
+    "d_mul_sld_lr": "d_(1x4)_SLD_LR",
+    "d_m3w_sld_lr": "d_(1x3)_SLD_LR",
+    "d_bin_sld_rbf": "(2x2)_SLD_RBF",
+    "d_mul_sld_rbf": "(1x4)_SLD_RBF",
+    "d_m3w_sld_rbf": "(1x3)_SLD_RBF",
+    # "sld_lr_gs": "MS_SLD_LR",
+    "sld_lr_gs": "QuAcc(SLD)",
+    "bin_kde_lr": "(2x2)_KDEy_LR",
+    "mul_kde_lr": "(1x4)_KDEy_LR",
+    "m3w_kde_lr": "(1x3)_KDEy_LR",
+    "d_bin_kde_lr": "d_(2x2)_KDEy_LR",
+    "d_mul_kde_lr": "d_(1x4)_KDEy_LR",
+    "d_m3w_kde_lr": "d_(1x3)_KDEy_LR",
+    "bin_cc_lr": "(2x2)_CC_LR",
+    "mul_cc_lr": "(1x4)_CC_LR",
+    "m3w_cc_lr": "(1x3)_CC_LR",
+    # "kde_lr_gs": "MS_KDEy_LR",
+    "kde_lr_gs": "QuAcc(KDEy)",
+    # "cc_lr_gs": "MS_CC_LR",
+    "cc_lr_gs": "QuAcc(CC)",
+    "atc_mc": "ATC",
+    "doc": "DoC",
+    "mandoline": "Mandoline",
+    "rca": "RCA",
+    "rca_star": "RCA*",
+    "naive": "Naive",
+}
--- a/quacc/legacy/evaluation/evaluate.py
+++ b/quacc/legacy/evaluation/evaluate.py
@ -0,0 +1,32 @@
+from typing import Callable, Union
+
+from quapy.protocol import AbstractProtocol, OnLabelledCollectionProtocol
+
+import quacc as qc
+from quacc.deprecated.method.base import BaseAccuracyEstimator
+
+
+def evaluate(
+    estimator: BaseAccuracyEstimator,
+    protocol: AbstractProtocol,
+    error_metric: Union[Callable | str],
+) -> float:
+    if isinstance(error_metric, str):
+        error_metric = qc.error.from_name(error_metric)
+
+    collator_bck_ = protocol.collator
+    protocol.collator = OnLabelledCollectionProtocol.get_collator("labelled_collection")
+
+    estim_prevs, true_prevs = [], []
+    for sample in protocol():
+        e_sample = estimator.extend(sample)
+        estim_prev = estimator.estimate(e_sample.eX)
+        estim_prevs.append(estim_prev)
+        true_prevs.append(e_sample.e_prevalence())
+
+    protocol.collator = collator_bck_
+
+    # true_prevs = np.array(true_prevs)
+    # estim_prevs = np.array(estim_prevs)
+
+    return error_metric(true_prevs, estim_prevs)
--- a/quacc/legacy/evaluation/method.py
+++ b/quacc/legacy/evaluation/method.py
@ -0,0 +1,517 @@
+import traceback
+from dataclasses import dataclass
+from typing import Callable, List, Union
+
+import numpy as np
+from matplotlib.pylab import rand
+from quapy.method.aggregative import CC, PACC, SLD, BaseQuantifier
+from quapy.protocol import UPP, AbstractProtocol, OnLabelledCollectionProtocol
+from sklearn.linear_model import LogisticRegression
+from sklearn.svm import SVC, LinearSVC
+
+import quacc as qc
+from quacc.deprecated.method.base import BQAE, MCAE, BaseAccuracyEstimator
+from quacc.deprecated.method.model_selection import (
+    GridSearchAE,
+    SpiderSearchAE,
+)
+from quacc.legacy.environment import env
+from quacc.legacy.evaluation.report import EvaluationReport
+from quacc.quantification import KDEy
+
+
+def _param_grid(method, X_fit: np.ndarray):
+    match method:
+        case "sld_lr":
+            return {
+                "q__classifier__C": np.logspace(-3, 3, 7),
+                "q__classifier__class_weight": [None, "balanced"],
+                "q__recalib": [None, "bcts"],
+                "confidence": [
+                    None,
+                    ["isoft"],
+                    ["max_conf", "entropy"],
+                    ["max_conf", "entropy", "isoft"],
+                ],
+            }
+        case "sld_rbf":
+            _scale = 1.0 / (X_fit.shape[1] * X_fit.var())
+            return {
+                "q__classifier__C": np.logspace(-3, 3, 7),
+                "q__classifier__class_weight": [None, "balanced"],
+                "q__classifier__gamma": _scale * np.logspace(-2, 2, 5),
+                "q__recalib": [None, "bcts"],
+                "confidence": [
+                    None,
+                    ["isoft"],
+                    ["max_conf", "entropy"],
+                    ["max_conf", "entropy", "isoft"],
+                ],
+            }
+        case "pacc":
+            return {
+                "q__classifier__C": np.logspace(-3, 3, 7),
+                "q__classifier__class_weight": [None, "balanced"],
+                "confidence": [None, ["isoft"], ["max_conf", "entropy"]],
+            }
+        case "cc_lr":
+            return {
+                "q__classifier__C": np.logspace(-3, 3, 7),
+                "q__classifier__class_weight": [None, "balanced"],
+                "confidence": [
+                    None,
+                    ["isoft"],
+                    ["max_conf", "entropy"],
+                    ["max_conf", "entropy", "isoft"],
+                ],
+            }
+        case "kde_lr":
+            return {
+                "q__classifier__C": np.logspace(-3, 3, 7),
+                "q__classifier__class_weight": [None, "balanced"],
+                "q__bandwidth": np.linspace(0.01, 0.2, 20),
+                "confidence": [None, ["isoft"], ["max_conf", "entropy", "isoft"]],
+            }
+        case "kde_rbf":
+            _scale = 1.0 / (X_fit.shape[1] * X_fit.var())
+            return {
+                "q__classifier__C": np.logspace(-3, 3, 7),
+                "q__classifier__class_weight": [None, "balanced"],
+                "q__classifier__gamma": _scale * np.logspace(-2, 2, 5),
+                "q__bandwidth": np.linspace(0.01, 0.2, 20),
+                "confidence": [None, ["isoft"], ["max_conf", "entropy", "isoft"]],
+            }
+
+
+def evaluation_report(
+    estimator: BaseAccuracyEstimator, protocol: AbstractProtocol, method_name=None
+) -> EvaluationReport:
+    # method_name = inspect.stack()[1].function
+    report = EvaluationReport(name=method_name)
+    for sample in protocol():
+        try:
+            e_sample = estimator.extend(sample)
+            estim_prev = estimator.estimate(e_sample.eX)
+            true_prev = e_sample.e_prevalence()
+            acc_score = qc.error.acc(estim_prev)
+            row = dict(
+                acc_score=acc_score,
+                acc=abs(qc.error.acc(true_prev) - acc_score),
+            )
+            if estim_prev.can_f1():
+                f1_score = qc.error.f1(estim_prev)
+                row = row | dict(
+                    f1_score=f1_score,
+                    f1=abs(qc.error.f1(true_prev) - f1_score),
+                )
+            report.append_row(sample.prevalence(), **row)
+        except Exception as e:
+            print(f"sample prediction failed for method {method_name}: {e}")
+            traceback.print_exception(e)
+            report.append_row(
+                sample.prevalence(),
+                acc_score=np.nan,
+                acc=np.nan,
+                f1_score=np.nan,
+                f1=np.nan,
+            )
+
+    return report
+
+
+@dataclass(frozen=True)
+class EmptyMethod:
+    name: str
+    nocall: bool = True
+
+    def __call__(self, c_model, validation, protocol) -> EvaluationReport:
+        pass
+
+
+@dataclass(frozen=True)
+class EvaluationMethod:
+    name: str
+    q: BaseQuantifier
+    est_n: str
+    conf: List[str] | str = None
+    cf: bool = False  # collapse_false
+    gf: bool = False  # group_false
+    d: bool = False  # dense
+
+    def get_est(self, c_model):
+        match self.est_n:
+            case "mul":
+                return MCAE(
+                    c_model,
+                    self.q,
+                    confidence=self.conf,
+                    collapse_false=self.cf,
+                    group_false=self.gf,
+                    dense=self.d,
+                )
+            case "bin":
+                return BQAE(
+                    c_model,
+                    self.q,
+                    confidence=self.conf,
+                    group_false=self.gf,
+                    dense=self.d,
+                )
+
+    def __call__(self, c_model, validation, protocol) -> EvaluationReport:
+        est = self.get_est(c_model).fit(validation)
+        return evaluation_report(
+            estimator=est, protocol=protocol, method_name=self.name
+        )
+
+
+@dataclass(frozen=True)
+class EvaluationMethodGridSearch(EvaluationMethod):
+    pg: str = "sld"
+    search: str = "grid"
+
+    def get_search(self):
+        match self.search:
+            case "grid":
+                return (GridSearchAE, {})
+            case "spider" | "spider2":
+                return (SpiderSearchAE, dict(best_width=2))
+            case "spider3":
+                return (SpiderSearchAE, dict(best_width=3))
+            case _:
+                return GridSearchAE
+
+    def __call__(self, c_model, validation, protocol) -> EvaluationReport:
+        v_train, v_val = validation.split_stratified(0.6, random_state=env._R_SEED)
+        _model = self.get_est(c_model)
+        _grid = _param_grid(self.pg, X_fit=_model.extend(v_train, prefit=True).X)
+        _search_class, _search_params = self.get_search()
+        est = _search_class(
+            model=_model,
+            param_grid=_grid,
+            refit=False,
+            protocol=UPP(v_val, repeats=100),
+            verbose=False,
+            **_search_params,
+        ).fit(v_train)
+        er = evaluation_report(
+            estimator=est,
+            protocol=protocol,
+            method_name=self.name,
+        )
+        er.fit_score = est.best_score()
+        return er
+
+
+E = EmptyMethod
+M = EvaluationMethod
+G = EvaluationMethodGridSearch
+
+
+def __sld_lr():
+    return SLD(LogisticRegression())
+
+
+def __sld_rbf():
+    return SLD(SVC(kernel="rbf", probability=True))
+
+
+def __kde_lr():
+    return KDEy(LogisticRegression(), random_state=env._R_SEED)
+
+
+def __kde_rbf():
+    return KDEy(SVC(kernel="rbf", probability=True), random_state=env._R_SEED)
+
+
+def __sld_lsvc():
+    return SLD(LinearSVC())
+
+
+def __pacc_lr():
+    return PACC(LogisticRegression())
+
+
+def __cc_lr():
+    return CC(LogisticRegression())
+
+
+# fmt: off
+
+__sld_lr_set = [
+    M("bin_sld_lr",      __sld_lr(),  "bin"                                       ),
+    M("bgf_sld_lr",      __sld_lr(),  "bin",                               gf=True),
+    M("mul_sld_lr",      __sld_lr(),  "mul"                                       ),
+    M("m3w_sld_lr",      __sld_lr(),  "mul",                               cf=True),
+    M("mgf_sld_lr",      __sld_lr(),  "mul",                               gf=True),
+    # max_conf sld
+    M("bin_sld_lr_mc",   __sld_lr(),  "bin", conf="max_conf",                     ),
+    M("bgf_sld_lr_mc",   __sld_lr(),  "bin", conf="max_conf",              gf=True),
+    M("mul_sld_lr_mc",   __sld_lr(),  "mul", conf="max_conf",                     ),
+    M("m3w_sld_lr_mc",   __sld_lr(),  "mul", conf="max_conf",              cf=True),
+    M("mgf_sld_lr_mc",   __sld_lr(),  "mul", conf="max_conf",              gf=True),
+    # entropy sld
+    M("bin_sld_lr_ne",   __sld_lr(),  "bin", conf="entropy",                      ),
+    M("bgf_sld_lr_ne",   __sld_lr(),  "bin", conf="entropy",               gf=True),
+    M("mul_sld_lr_ne",   __sld_lr(),  "mul", conf="entropy",                      ),
+    M("m3w_sld_lr_ne",   __sld_lr(),  "mul", conf="entropy",               cf=True),
+    M("mgf_sld_lr_ne",   __sld_lr(),  "mul", conf="entropy",               gf=True),
+    # inverse softmax sld
+    M("bin_sld_lr_is",   __sld_lr(),  "bin", conf="isoft",                        ),
+    M("bgf_sld_lr_is",   __sld_lr(),  "bin", conf="isoft",                 gf=True),
+    M("mul_sld_lr_is",   __sld_lr(),  "mul", conf="isoft",                        ),
+    M("m3w_sld_lr_is",   __sld_lr(),  "mul", conf="isoft",                 cf=True),
+    M("mgf_sld_lr_is",   __sld_lr(),  "mul", conf="isoft",                 gf=True),
+    # max_conf + entropy sld
+    M("bin_sld_lr_c",    __sld_lr(),  "bin", conf=["max_conf", "entropy"]         ),
+    M("bgf_sld_lr_c",    __sld_lr(),  "bin", conf=["max_conf", "entropy"], gf=True),
+    M("mul_sld_lr_c",    __sld_lr(),  "mul", conf=["max_conf", "entropy"]         ),
+    M("m3w_sld_lr_c",    __sld_lr(),  "mul", conf=["max_conf", "entropy"], cf=True),
+    M("mgf_sld_lr_c",    __sld_lr(),  "mul", conf=["max_conf", "entropy"], gf=True),
+    # sld all
+    M("bin_sld_lr_a",   __sld_lr(),  "bin", conf=["max_conf", "entropy", "isoft"],         ),
+    M("bgf_sld_lr_a",   __sld_lr(),  "bin", conf=["max_conf", "entropy", "isoft"],  gf=True),
+    M("mul_sld_lr_a",   __sld_lr(),  "mul", conf=["max_conf", "entropy", "isoft"],         ),
+    M("m3w_sld_lr_a",   __sld_lr(),  "mul", conf=["max_conf", "entropy", "isoft"],  cf=True),
+    M("mgf_sld_lr_a",   __sld_lr(),  "mul", conf=["max_conf", "entropy", "isoft"],  gf=True),
+    # gs sld
+    G("bin_sld_lr_gs",   __sld_lr(),  "bin", pg="sld_lr"                          ),
+    G("bgf_sld_lr_gs",   __sld_lr(),  "bin", pg="sld_lr",                  gf=True),
+    G("mul_sld_lr_gs",   __sld_lr(),  "mul", pg="sld_lr"                          ),
+    G("m3w_sld_lr_gs",   __sld_lr(),  "mul", pg="sld_lr",                  cf=True),
+    G("mgf_sld_lr_gs",   __sld_lr(),  "mul", pg="sld_lr",                  gf=True),
+]
+
+__dense_sld_lr_set = [
+    M("d_bin_sld_lr",      __sld_lr(),  "bin", d=True,                                      ),
+    M("d_bgf_sld_lr",      __sld_lr(),  "bin", d=True,                               gf=True),
+    M("d_mul_sld_lr",      __sld_lr(),  "mul", d=True,                                      ),
+    M("d_m3w_sld_lr",      __sld_lr(),  "mul", d=True,                               cf=True),
+    M("d_mgf_sld_lr",      __sld_lr(),  "mul", d=True,                               gf=True),
+    # max_conf sld
+    M("d_bin_sld_lr_mc",   __sld_lr(),  "bin", d=True, conf="max_conf",                     ),
+    M("d_bgf_sld_lr_mc",   __sld_lr(),  "bin", d=True, conf="max_conf",              gf=True),
+    M("d_mul_sld_lr_mc",   __sld_lr(),  "mul", d=True, conf="max_conf",                     ),
+    M("d_m3w_sld_lr_mc",   __sld_lr(),  "mul", d=True, conf="max_conf",              cf=True),
+    M("d_mgf_sld_lr_mc",   __sld_lr(),  "mul", d=True, conf="max_conf",              gf=True),
+    # entropy sld
+    M("d_bin_sld_lr_ne",   __sld_lr(),  "bin", d=True, conf="entropy",                      ),
+    M("d_bgf_sld_lr_ne",   __sld_lr(),  "bin", d=True, conf="entropy",               gf=True),
+    M("d_mul_sld_lr_ne",   __sld_lr(),  "mul", d=True, conf="entropy",                      ),
+    M("d_m3w_sld_lr_ne",   __sld_lr(),  "mul", d=True, conf="entropy",               cf=True),
+    M("d_mgf_sld_lr_ne",   __sld_lr(),  "mul", d=True, conf="entropy",               gf=True),
+    # inverse softmax sld
+    M("d_bin_sld_lr_is",   __sld_lr(),  "bin", d=True, conf="isoft",                        ),
+    M("d_bgf_sld_lr_is",   __sld_lr(),  "bin", d=True, conf="isoft",                 gf=True),
+    M("d_mul_sld_lr_is",   __sld_lr(),  "mul", d=True, conf="isoft",                        ),
+    M("d_m3w_sld_lr_is",   __sld_lr(),  "mul", d=True, conf="isoft",                 cf=True),
+    M("d_mgf_sld_lr_is",   __sld_lr(),  "mul", d=True, conf="isoft",                 gf=True),
+    # max_conf + entropy sld
+    M("d_bin_sld_lr_c",    __sld_lr(),  "bin", d=True, conf=["max_conf", "entropy"]         ),
+    M("d_bgf_sld_lr_c",    __sld_lr(),  "bin", d=True, conf=["max_conf", "entropy"], gf=True),
+    M("d_mul_sld_lr_c",    __sld_lr(),  "mul", d=True, conf=["max_conf", "entropy"]         ),
+    M("d_m3w_sld_lr_c",    __sld_lr(),  "mul", d=True, conf=["max_conf", "entropy"], cf=True),
+    M("d_mgf_sld_lr_c",    __sld_lr(),  "mul", d=True, conf=["max_conf", "entropy"], gf=True),
+    # sld all
+    M("d_bin_sld_lr_a",    __sld_lr(),  "bin", d=True, conf=["max_conf", "entropy", "isoft"],         ),
+    M("d_bgf_sld_lr_a",    __sld_lr(),  "bin", d=True, conf=["max_conf", "entropy", "isoft"],  gf=True),
+    M("d_mul_sld_lr_a",    __sld_lr(),  "mul", d=True, conf=["max_conf", "entropy", "isoft"],         ),
+    M("d_m3w_sld_lr_a",    __sld_lr(),  "mul", d=True, conf=["max_conf", "entropy", "isoft"],  cf=True),
+    M("d_mgf_sld_lr_a",    __sld_lr(),  "mul", d=True, conf=["max_conf", "entropy", "isoft"],  gf=True),
+    # gs sld
+    G("d_bin_sld_lr_gs",   __sld_lr(),  "bin", d=True, pg="sld_lr"                          ),
+    G("d_bgf_sld_lr_gs",   __sld_lr(),  "bin", d=True, pg="sld_lr",                  gf=True),
+    G("d_mul_sld_lr_gs",   __sld_lr(),  "mul", d=True, pg="sld_lr"                          ),
+    G("d_m3w_sld_lr_gs",   __sld_lr(),  "mul", d=True, pg="sld_lr",                  cf=True),
+    G("d_mgf_sld_lr_gs",   __sld_lr(),  "mul", d=True, pg="sld_lr",                  gf=True),
+]
+
+__dense_sld_rbf_set = [
+    M("d_bin_sld_rbf",    __sld_rbf(), "bin", d=True,                                       ),
+    M("d_bgf_sld_rbf",    __sld_rbf(), "bin", d=True,                                 gf=True),
+    M("d_mul_sld_rbf",    __sld_rbf(), "mul", d=True,                                       ),
+    M("d_m3w_sld_rbf",    __sld_rbf(), "mul", d=True,                                 cf=True),
+    M("d_mgf_sld_rbf",    __sld_rbf(), "mul", d=True,                                 gf=True),
+    # max_conf sld
+    M("d_bin_sld_rbf_mc", __sld_rbf(), "bin", d=True, conf="max_conf",                       ),
+    M("d_bgf_sld_rbf_mc", __sld_rbf(), "bin", d=True, conf="max_conf",                gf=True),
+    M("d_mul_sld_rbf_mc", __sld_rbf(), "mul", d=True, conf="max_conf",                       ),
+    M("d_m3w_sld_rbf_mc", __sld_rbf(), "mul", d=True, conf="max_conf",                cf=True),
+    M("d_mgf_sld_rbf_mc", __sld_rbf(), "mul", d=True, conf="max_conf",                gf=True),
+    # entropy sld
+    M("d_bin_sld_rbf_ne", __sld_rbf(), "bin", d=True, conf="entropy",                        ),
+    M("d_bgf_sld_rbf_ne", __sld_rbf(), "bin", d=True, conf="entropy",                 gf=True),
+    M("d_mul_sld_rbf_ne", __sld_rbf(), "mul", d=True, conf="entropy",                        ),
+    M("d_m3w_sld_rbf_ne", __sld_rbf(), "mul", d=True, conf="entropy",                 cf=True),
+    M("d_mgf_sld_rbf_ne", __sld_rbf(), "mul", d=True, conf="entropy",                 gf=True),
+    # inverse softmax sld
+    M("d_bin_sld_rbf_is", __sld_rbf(), "bin", d=True, conf="isoft",                          ),
+    M("d_bgf_sld_rbf_is", __sld_rbf(), "bin", d=True, conf="isoft",                   gf=True),
+    M("d_mul_sld_rbf_is", __sld_rbf(), "mul", d=True, conf="isoft",                          ),
+    M("d_m3w_sld_rbf_is", __sld_rbf(), "mul", d=True, conf="isoft",                   cf=True),
+    M("d_mgf_sld_rbf_is", __sld_rbf(), "mul", d=True, conf="isoft",                   gf=True),
+    # max_conf + entropy sld
+    M("d_bin_sld_rbf_c",  __sld_rbf(), "bin", d=True, conf=["max_conf", "entropy"]           ),
+    M("d_bgf_sld_rbf_c",  __sld_rbf(), "bin", d=True, conf=["max_conf", "entropy"],   gf=True),
+    M("d_mul_sld_rbf_c",  __sld_rbf(), "mul", d=True, conf=["max_conf", "entropy"]           ),
+    M("d_m3w_sld_rbf_c",  __sld_rbf(), "mul", d=True, conf=["max_conf", "entropy"],   cf=True),
+    M("d_mgf_sld_rbf_c",  __sld_rbf(), "mul", d=True, conf=["max_conf", "entropy"],   gf=True),
+    # sld all
+    M("d_bin_sld_rbf_a",  __sld_rbf(), "bin", d=True, conf=["max_conf", "entropy", "isoft"],         ),
+    M("d_bgf_sld_rbf_a",  __sld_rbf(), "bin", d=True, conf=["max_conf", "entropy", "isoft"],  gf=True),
+    M("d_mul_sld_rbf_a",  __sld_rbf(), "mul", d=True, conf=["max_conf", "entropy", "isoft"],         ),
+    M("d_m3w_sld_rbf_a",  __sld_rbf(), "mul", d=True, conf=["max_conf", "entropy", "isoft"],  cf=True),
+    M("d_mgf_sld_rbf_a",  __sld_rbf(), "mul", d=True, conf=["max_conf", "entropy", "isoft"],  gf=True),
+    # gs sld
+    G("d_bin_sld_rbf_gs", __sld_rbf(), "bin", d=True, pg="sld_rbf", search="grid",        ),
+    G("d_bgf_sld_rbf_gs", __sld_rbf(), "bin", d=True, pg="sld_rbf", search="grid", gf=True),
+    G("d_mul_sld_rbf_gs", __sld_rbf(), "mul", d=True, pg="sld_rbf", search="grid",        ),
+    G("d_m3w_sld_rbf_gs", __sld_rbf(), "mul", d=True, pg="sld_rbf", search="grid", cf=True),
+    G("d_mgf_sld_rbf_gs", __sld_rbf(), "mul", d=True, pg="sld_rbf", search="grid", gf=True),
+]
+
+__kde_lr_set = [
+    # base kde
+    M("bin_kde_lr",    __kde_lr(), "bin"                                       ),
+    M("mul_kde_lr",    __kde_lr(), "mul"                                       ),
+    M("m3w_kde_lr",    __kde_lr(), "mul",                               cf=True),
+    # max_conf kde
+    M("bin_kde_lr_mc", __kde_lr(), "bin", conf="max_conf",                     ),
+    M("mul_kde_lr_mc", __kde_lr(), "mul", conf="max_conf",                     ),
+    M("m3w_kde_lr_mc", __kde_lr(), "mul", conf="max_conf",              cf=True),
+    # entropy kde
+    M("bin_kde_lr_ne", __kde_lr(), "bin", conf="entropy",                      ),
+    M("mul_kde_lr_ne", __kde_lr(), "mul", conf="entropy",                      ),
+    M("m3w_kde_lr_ne", __kde_lr(), "mul", conf="entropy",               cf=True),
+    # inverse softmax kde
+    M("bin_kde_lr_is", __kde_lr(), "bin", conf="isoft",                        ),
+    M("mul_kde_lr_is", __kde_lr(), "mul", conf="isoft",                        ),
+    M("m3w_kde_lr_is", __kde_lr(), "mul", conf="isoft",                 cf=True),
+    # max_conf + entropy kde
+    M("bin_kde_lr_c",  __kde_lr(), "bin", conf=["max_conf", "entropy"]         ),
+    M("mul_kde_lr_c",  __kde_lr(), "mul", conf=["max_conf", "entropy"]         ),
+    M("m3w_kde_lr_c",  __kde_lr(), "mul", conf=["max_conf", "entropy"], cf=True),
+    # kde all
+    M("bin_kde_lr_a",  __kde_lr(), "bin", conf=["max_conf", "entropy", "isoft"],         ),
+    M("mul_kde_lr_a",  __kde_lr(), "mul", conf=["max_conf", "entropy", "isoft"],         ),
+    M("m3w_kde_lr_a",  __kde_lr(), "mul", conf=["max_conf", "entropy", "isoft"],  cf=True),
+    # gs kde
+    G("bin_kde_lr_gs", __kde_lr(), "bin", pg="kde_lr", search="grid"         ),
+    G("mul_kde_lr_gs", __kde_lr(), "mul", pg="kde_lr", search="grid"         ),
+    G("m3w_kde_lr_gs", __kde_lr(), "mul", pg="kde_lr", search="grid", cf=True),
+]
+
+__dense_kde_lr_set = [
+    # base kde
+    M("d_bin_kde_lr",    __kde_lr(), "bin", d=True,                                      ),
+    M("d_mul_kde_lr",    __kde_lr(), "mul", d=True,                                      ),
+    M("d_m3w_kde_lr",    __kde_lr(), "mul", d=True,                               cf=True),
+    # max_conf kde                       
+    M("d_bin_kde_lr_mc", __kde_lr(), "bin", d=True, conf="max_conf",                     ),
+    M("d_mul_kde_lr_mc", __kde_lr(), "mul", d=True, conf="max_conf",                     ),
+    M("d_m3w_kde_lr_mc", __kde_lr(), "mul", d=True, conf="max_conf",              cf=True),
+    # entropy kde                        
+    M("d_bin_kde_lr_ne", __kde_lr(), "bin", d=True, conf="entropy",                      ),
+    M("d_mul_kde_lr_ne", __kde_lr(), "mul", d=True, conf="entropy",                      ),
+    M("d_m3w_kde_lr_ne", __kde_lr(), "mul", d=True, conf="entropy",               cf=True),
+    # inverse softmax kde                  d=True,
+    M("d_bin_kde_lr_is", __kde_lr(), "bin", d=True, conf="isoft",                        ),
+    M("d_mul_kde_lr_is", __kde_lr(), "mul", d=True, conf="isoft",                        ),
+    M("d_m3w_kde_lr_is", __kde_lr(), "mul", d=True, conf="isoft",                 cf=True),
+    # max_conf + entropy kde               
+    M("d_bin_kde_lr_c",  __kde_lr(), "bin", d=True, conf=["max_conf", "entropy"]         ),
+    M("d_mul_kde_lr_c",  __kde_lr(), "mul", d=True, conf=["max_conf", "entropy"]         ),
+    M("d_m3w_kde_lr_c",  __kde_lr(), "mul", d=True, conf=["max_conf", "entropy"], cf=True),
+    # kde all
+    M("d_bin_kde_lr_a",  __kde_lr(), "bin", d=True, conf=["max_conf", "entropy", "isoft"],         ),
+    M("d_mul_kde_lr_a",  __kde_lr(), "mul", d=True, conf=["max_conf", "entropy", "isoft"],         ),
+    M("d_m3w_kde_lr_a",  __kde_lr(), "mul", d=True, conf=["max_conf", "entropy", "isoft"],  cf=True),
+    # gs kde                             
+    G("d_bin_kde_lr_gs", __kde_lr(), "bin", d=True, pg="kde_lr", search="grid"            ),
+    G("d_mul_kde_lr_gs", __kde_lr(), "mul", d=True, pg="kde_lr", search="grid"            ),
+    G("d_m3w_kde_lr_gs", __kde_lr(), "mul", d=True, pg="kde_lr", search="grid",    cf=True),
+]
+
+__dense_kde_rbf_set = [
+    # base kde
+    M("d_bin_kde_rbf",    __kde_rbf(), "bin", d=True,                                       ),
+    M("d_mul_kde_rbf",    __kde_rbf(), "mul", d=True,                                       ),
+    M("d_m3w_kde_rbf",    __kde_rbf(), "mul", d=True,                                cf=True),
+    # max_conf kde
+    M("d_bin_kde_rbf_mc", __kde_rbf(), "bin", d=True, conf="max_conf",                      ),
+    M("d_mul_kde_rbf_mc", __kde_rbf(), "mul", d=True, conf="max_conf",                      ),
+    M("d_m3w_kde_rbf_mc", __kde_rbf(), "mul", d=True, conf="max_conf",               cf=True),
+    # entropy kde
+    M("d_bin_kde_rbf_ne", __kde_rbf(), "bin", d=True, conf="entropy",                       ),
+    M("d_mul_kde_rbf_ne", __kde_rbf(), "mul", d=True, conf="entropy",                       ),
+    M("d_m3w_kde_rbf_ne", __kde_rbf(), "mul", d=True, conf="entropy",                cf=True),
+    # inverse softmax kde
+    M("d_bin_kde_rbf_is", __kde_rbf(), "bin", d=True, conf="isoft",                         ),
+    M("d_mul_kde_rbf_is", __kde_rbf(), "mul", d=True, conf="isoft",                         ),
+    M("d_m3w_kde_rbf_is", __kde_rbf(), "mul", d=True, conf="isoft",                  cf=True),
+    # max_conf + entropy kde
+    M("d_bin_kde_rbf_c",  __kde_rbf(), "bin", d=True, conf=["max_conf", "entropy"]          ),
+    M("d_mul_kde_rbf_c",  __kde_rbf(), "mul", d=True, conf=["max_conf", "entropy"]          ),
+    M("d_m3w_kde_rbf_c",  __kde_rbf(), "mul", d=True, conf=["max_conf", "entropy"],  cf=True),
+    # kde all
+    M("d_bin_kde_rbf_a",  __kde_rbf(), "bin", d=True, conf=["max_conf", "entropy", "isoft"],         ),
+    M("d_mul_kde_rbf_a",  __kde_rbf(), "mul", d=True, conf=["max_conf", "entropy", "isoft"],         ),
+    M("d_m3w_kde_rbf_a",  __kde_rbf(), "mul", d=True, conf=["max_conf", "entropy", "isoft"],  cf=True),
+    # gs kde
+    G("d_bin_kde_rbf_gs", __kde_rbf(), "bin", d=True, pg="kde_rbf", search="spider"          ),
+    G("d_mul_kde_rbf_gs", __kde_rbf(), "mul", d=True, pg="kde_rbf", search="spider"          ),
+    G("d_m3w_kde_rbf_gs", __kde_rbf(), "mul", d=True, pg="kde_rbf", search="spider", cf=True),
+]
+
+__cc_lr_set = [
+    # base cc
+    M("bin_cc_lr",    __cc_lr(), "bin"                                       ),
+    M("mul_cc_lr",    __cc_lr(), "mul"                                       ),
+    M("m3w_cc_lr",    __cc_lr(), "mul",                               cf=True),
+    # max_conf cc
+    M("bin_cc_lr_mc", __cc_lr(), "bin", conf="max_conf",                     ),
+    M("mul_cc_lr_mc", __cc_lr(), "mul", conf="max_conf",                     ),
+    M("m3w_cc_lr_mc", __cc_lr(), "mul", conf="max_conf",              cf=True),
+    # entropy cc
+    M("bin_cc_lr_ne", __cc_lr(), "bin", conf="entropy",                      ),
+    M("mul_cc_lr_ne", __cc_lr(), "mul", conf="entropy",                      ),
+    M("m3w_cc_lr_ne", __cc_lr(), "mul", conf="entropy",               cf=True),
+    # inverse softmax cc
+    M("bin_cc_lr_is", __cc_lr(), "bin", conf="isoft",                        ),
+    M("mul_cc_lr_is", __cc_lr(), "mul", conf="isoft",                        ),
+    M("m3w_cc_lr_is", __cc_lr(), "mul", conf="isoft",                 cf=True),
+    # max_conf + entropy cc
+    M("bin_cc_lr_c",  __cc_lr(), "bin", conf=["max_conf", "entropy"]         ),
+    M("mul_cc_lr_c",  __cc_lr(), "mul", conf=["max_conf", "entropy"]         ),
+    M("m3w_cc_lr_c",  __cc_lr(), "mul", conf=["max_conf", "entropy"], cf=True),
+    # cc all
+    M("bin_cc_lr_a",  __cc_lr(), "bin", conf=["max_conf", "entropy", "isoft"],         ),
+    M("mul_cc_lr_a",  __cc_lr(), "mul", conf=["max_conf", "entropy", "isoft"],         ),
+    M("m3w_cc_lr_a",  __cc_lr(), "mul", conf=["max_conf", "entropy", "isoft"],  cf=True),
+    # gs cc
+    G("bin_cc_lr_gs", __cc_lr(), "bin", pg="cc_lr", search="grid"         ),
+    G("mul_cc_lr_gs", __cc_lr(), "mul", pg="cc_lr", search="grid"         ),
+    G("m3w_cc_lr_gs", __cc_lr(), "mul", pg="cc_lr", search="grid", cf=True),
+]
+
+__ms_set = [
+    E("cc_lr_gs"),
+    E("sld_lr_gs"),
+    E("kde_lr_gs"),
+    E("QuAcc"),
+]
+
+# fmt: on
+
+__methods_set = (
+    __sld_lr_set
+    + __dense_sld_lr_set
+    + __dense_sld_rbf_set
+    + __kde_lr_set
+    + __dense_kde_lr_set
+    + __dense_kde_rbf_set
+    + __cc_lr_set
+    + __ms_set
+)
+
+_methods = {m.name: m for m in __methods_set}
--- a/quacc/legacy/evaluation/report.py
+++ b/quacc/legacy/evaluation/report.py
@ -0,0 +1,956 @@
+import json
+import pickle
+from collections import defaultdict
+from pathlib import Path
+from typing import List, Tuple
+
+import numpy as np
+import pandas as pd
+
+import quacc as qc
+import quacc.plot as plot
+from quacc.utils.commons import fmt_line_md
+
+
+def _get_metric(metric: str):
+    return slice(None) if metric is None else metric
+
+
+def _get_estimators(estimators: List[str], cols: np.ndarray):
+    if estimators is None:
+        return slice(None)
+
+    estimators = np.array(estimators)
+    return estimators[np.isin(estimators, cols)]
+
+
+def _get_shift(index: np.ndarray, train_prev: np.ndarray):
+    index = np.array([np.array(tp) for tp in index])
+    train_prevs = np.tile(train_prev, (index.shape[0], 1))
+    # assert index.shape[1] == train_prev.shape[0], "Mismatch in prevalence shape"
+    # _shift = np.abs(index - train_prev)[:, 1:].sum(axis=1)
+    _shift = qc.error.nae(index, train_prevs)
+    return np.around(_shift, decimals=2)
+
+
+class EvaluationReport:
+    def __init__(self, name=None):
+        self.data: pd.DataFrame | None = None
+        self.name = name if name is not None else "default"
+        self.time = 0.0
+        self.fit_score = None
+
+    def append_row(self, basep: np.ndarray | Tuple, **row):
+        # bp = basep[1]
+        bp = tuple(basep)
+        _keys, _values = zip(*row.items())
+        # _keys = list(row.keys())
+        # _values = list(row.values())
+
+        if self.data is None:
+            _idx = 0
+            self.data = pd.DataFrame(
+                {k: [v] for k, v in row.items()},
+                index=pd.MultiIndex.from_tuples([(bp, _idx)]),
+                columns=_keys,
+            )
+            return
+
+        _idx = len(self.data.loc[(bp,), :]) if (bp,) in self.data.index else 0
+        not_in_data = np.setdiff1d(list(row.keys()), self.data.columns.unique(0))
+        self.data.loc[:, not_in_data] = np.nan
+        self.data.loc[(bp, _idx), :] = row
+        return
+
+    @property
+    def columns(self) -> np.ndarray:
+        return self.data.columns.unique(0)
+
+    @property
+    def prevs(self):
+        return np.sort(self.data.index.unique(0))
+
+
+class CompReport:
+    _default_modes = [
+        "delta_train",
+        "stdev_train",
+        "train_table",
+        "shift",
+        "shift_table",
+        "diagonal",
+        "stats_table",
+    ]
+
+    def __init__(
+        self,
+        datas: List[EvaluationReport] | pd.DataFrame,
+        name="default",
+        train_prev: np.ndarray = None,
+        valid_prev: np.ndarray = None,
+        times=None,
+        fit_scores=None,
+        g_time=None,
+    ):
+        if isinstance(datas, pd.DataFrame):
+            self._data: pd.DataFrame = datas
+        else:
+            self._data: pd.DataFrame = (
+                pd.concat(
+                    [er.data for er in datas],
+                    keys=[er.name for er in datas],
+                    axis=1,
+                )
+                .swaplevel(0, 1, axis=1)
+                .sort_index(axis=1, level=0, sort_remaining=False)
+                .sort_index(axis=0, level=0, ascending=False, sort_remaining=False)
+            )
+
+        if fit_scores is None:
+            self.fit_scores = {
+                er.name: er.fit_score for er in datas if er.fit_score is not None
+            }
+        else:
+            self.fit_scores = fit_scores
+
+        if times is None:
+            self.times = {er.name: er.time for er in datas}
+        else:
+            self.times = times
+
+        self.times["tot"] = g_time if g_time is not None else 0.0
+        self.train_prev = train_prev
+        self.valid_prev = valid_prev
+
+    def postprocess(
+        self,
+        f_data: pd.DataFrame,
+        _data: pd.DataFrame,
+        metric=None,
+        estimators=None,
+    ) -> pd.DataFrame:
+        _mapping = {
+            "sld_lr_gs": [
+                "bin_sld_lr_gs",
+                "mul_sld_lr_gs",
+                "m3w_sld_lr_gs",
+            ],
+            "kde_lr_gs": [
+                "bin_kde_lr_gs",
+                "mul_kde_lr_gs",
+                "m3w_kde_lr_gs",
+            ],
+            "cc_lr_gs": [
+                "bin_cc_lr_gs",
+                "mul_cc_lr_gs",
+                "m3w_cc_lr_gs",
+            ],
+            "QuAcc": [
+                "bin_sld_lr_gs",
+                "mul_sld_lr_gs",
+                "m3w_sld_lr_gs",
+                "bin_kde_lr_gs",
+                "mul_kde_lr_gs",
+                "m3w_kde_lr_gs",
+            ],
+        }
+
+        for name, methods in _mapping.items():
+            if estimators is not None and name not in estimators:
+                continue
+
+            available_idx = np.where(np.in1d(methods, self._data.columns.unique(1)))[0]
+            if len(available_idx) == 0:
+                continue
+            methods = np.array(methods)[available_idx]
+
+            _metric = _get_metric(metric)
+            m_data = _data.loc[:, (_metric, methods)]
+            _fit_scores = [(k, v) for (k, v) in self.fit_scores.items() if k in methods]
+            _best_method = [k for k, v in _fit_scores][
+                np.argmin([v for k, v in _fit_scores])
+            ]
+            _metric = (
+                [_metric]
+                if _metric is isinstance(_metric, str)
+                else m_data.columns.unique(0)
+            )
+            for _m in _metric:
+                f_data.loc[:, (_m, name)] = m_data.loc[:, (_m, _best_method)]
+
+        return f_data
+
+    @property
+    def prevs(self) -> np.ndarray:
+        return self.data().index.unique(0)
+
+    def join(self, other, how="update", estimators=None):
+        if how not in ["update"]:
+            how = "update"
+
+        if not (self.train_prev == other.train_prev).all():
+            raise ValueError(
+                f"self has train prev. {self.train_prev} while other has {other.train_prev}"
+            )
+
+        self_data = self.data(estimators=estimators)
+        other_data = other.data(estimators=estimators)
+
+        if not (self_data.index == other_data.index).all():
+            raise ValueError("self and other have different indexes")
+
+        update_col = self_data.columns.intersection(other_data.columns)
+        other_join_col = other_data.columns.difference(update_col)
+
+        _join = pd.concat(
+            [self_data, other_data.loc[:, other_join_col.to_list()]],
+            axis=1,
+        )
+        _join.loc[:, update_col.to_list()] = other_data.loc[:, update_col.to_list()]
+        _join.sort_index(axis=1, level=0, sort_remaining=False, inplace=True)
+
+        df = CompReport(
+            _join,
+            self.name if hasattr(self, "name") else "default",
+            train_prev=self.train_prev,
+            valid_prev=self.valid_prev,
+            times=self.times | other.times,
+            fit_scores=self.fit_scores | other.fit_scores,
+            g_time=self.times["tot"] + other.times["tot"],
+        )
+
+        return df
+
+    def data(self, metric: str = None, estimators: List[str] = None) -> pd.DataFrame:
+        _metric = _get_metric(metric)
+        _estimators = _get_estimators(
+            estimators, self._data.loc[:, (_metric, slice(None))].columns.unique(1)
+        )
+        _data: pd.DataFrame = self._data.copy()
+        f_data: pd.DataFrame = _data.loc[:, (_metric, _estimators)]
+
+        f_data = self.postprocess(f_data, _data, metric=metric, estimators=estimators)
+
+        if len(f_data.columns.unique(0)) == 1:
+            f_data = f_data.droplevel(level=0, axis=1)
+
+        return f_data
+
+    def shift_data(
+        self, metric: str = None, estimators: List[str] = None
+    ) -> pd.DataFrame:
+        shift_idx_0 = _get_shift(
+            self._data.index.get_level_values(0).to_numpy(),
+            self.train_prev,
+        )
+
+        shift_idx_1 = np.zeros(shape=shift_idx_0.shape[0], dtype="<i4")
+        for _id in np.unique(shift_idx_0):
+            _wh = (shift_idx_0 == _id).nonzero()[0]
+            shift_idx_1[_wh] = np.arange(_wh.shape[0], dtype="<i4")
+
+        shift_data = self._data.copy()
+        shift_data.index = pd.MultiIndex.from_arrays([shift_idx_0, shift_idx_1])
+        shift_data = shift_data.sort_index(axis=0, level=0)
+
+        _metric = _get_metric(metric)
+        _estimators = _get_estimators(
+            estimators, shift_data.loc[:, (_metric, slice(None))].columns.unique(1)
+        )
+        s_data: pd.DataFrame = shift_data
+        shift_data: pd.DataFrame = shift_data.loc[:, (_metric, _estimators)]
+        shift_data = self.postprocess(
+            shift_data, s_data, metric=metric, estimators=estimators
+        )
+
+        if len(shift_data.columns.unique(0)) == 1:
+            shift_data = shift_data.droplevel(level=0, axis=1)
+
+        return shift_data
+
+    def avg_by_prevs(
+        self, metric: str = None, estimators: List[str] = None
+    ) -> pd.DataFrame:
+        f_dict = self.data(metric=metric, estimators=estimators)
+        return f_dict.groupby(level=0, sort=False).mean()
+
+    def stdev_by_prevs(
+        self, metric: str = None, estimators: List[str] = None
+    ) -> pd.DataFrame:
+        f_dict = self.data(metric=metric, estimators=estimators)
+        return f_dict.groupby(level=0, sort=False).std()
+
+    def train_table(
+        self, metric: str = None, estimators: List[str] = None
+    ) -> pd.DataFrame:
+        f_data = self.data(metric=metric, estimators=estimators)
+        avg_p = f_data.groupby(level=0, sort=False).mean()
+        avg_p.loc["mean", :] = f_data.mean()
+        return avg_p
+
+    def shift_table(
+        self, metric: str = None, estimators: List[str] = None
+    ) -> pd.DataFrame:
+        f_data = self.shift_data(metric=metric, estimators=estimators)
+        avg_p = f_data.groupby(level=0, sort=False).mean()
+        avg_p.loc["mean", :] = f_data.mean()
+        return avg_p
+
+    def get_plots(
+        self,
+        mode="delta_train",
+        metric="acc",
+        estimators=None,
+        conf="default",
+        save_fig=True,
+        base_path=None,
+        backend=None,
+    ) -> List[Tuple[str, Path]]:
+        if mode == "delta_train":
+            avg_data = self.avg_by_prevs(metric=metric, estimators=estimators)
+            if avg_data.empty:
+                return None
+
+            return plot.plot_delta(
+                base_prevs=self.prevs,
+                columns=avg_data.columns.to_numpy(),
+                data=avg_data.T.to_numpy(),
+                metric=metric,
+                name=conf,
+                train_prev=self.train_prev,
+                save_fig=save_fig,
+                base_path=base_path,
+                backend=backend,
+            )
+        elif mode == "stdev_train":
+            avg_data = self.avg_by_prevs(metric=metric, estimators=estimators)
+            if avg_data.empty is True:
+                return None
+
+            st_data = self.stdev_by_prevs(metric=metric, estimators=estimators)
+            return plot.plot_delta(
+                base_prevs=self.prevs,
+                columns=avg_data.columns.to_numpy(),
+                data=avg_data.T.to_numpy(),
+                metric=metric,
+                name=conf,
+                train_prev=self.train_prev,
+                stdevs=st_data.T.to_numpy(),
+                save_fig=save_fig,
+                base_path=base_path,
+                backend=backend,
+            )
+        elif mode == "diagonal":
+            f_data = self.data(metric=metric + "_score", estimators=estimators)
+            if f_data.empty is True:
+                return None
+
+            ref: pd.Series = f_data.loc[:, "ref"]
+            f_data.drop(columns=["ref"], inplace=True)
+            return plot.plot_diagonal(
+                reference=ref.to_numpy(),
+                columns=f_data.columns.to_numpy(),
+                data=f_data.T.to_numpy(),
+                metric=metric,
+                name=conf,
+                train_prev=self.train_prev,
+                save_fig=save_fig,
+                base_path=base_path,
+                backend=backend,
+            )
+        elif mode == "shift":
+            _shift_data = self.shift_data(metric=metric, estimators=estimators)
+            if _shift_data.empty is True:
+                return None
+
+            shift_avg = _shift_data.groupby(level=0, sort=False).mean()
+            shift_counts = _shift_data.groupby(level=0, sort=False).count()
+            shift_prevs = shift_avg.index.unique(0)
+            # shift_prevs = np.around(
+            #     [(1.0 - p, p) for p in np.sort(shift_avg.index.unique(0))],
+            #     decimals=2,
+            # )
+            return plot.plot_shift(
+                shift_prevs=shift_prevs,
+                columns=shift_avg.columns.to_numpy(),
+                data=shift_avg.T.to_numpy(),
+                metric=metric,
+                name=conf,
+                train_prev=self.train_prev,
+                counts=shift_counts.T.to_numpy(),
+                save_fig=save_fig,
+                base_path=base_path,
+                backend=backend,
+            )
+
+    def to_md(
+        self,
+        conf="default",
+        metric="acc",
+        estimators=None,
+        modes=_default_modes,
+        plot_path=None,
+    ) -> str:
+        res = f"## {int(np.around(self.train_prev, decimals=2)[1]*100)}% positives\n"
+        res += fmt_line_md(f"train: {str(self.train_prev)}")
+        res += fmt_line_md(f"validation: {str(self.valid_prev)}")
+        for k, v in self.times.items():
+            if estimators is not None and k not in estimators:
+                continue
+            res += fmt_line_md(f"{k}: {v:.3f}s")
+        res += "\n"
+        if "train_table" in modes:
+            res += "### table\n"
+            res += (
+                self.train_table(metric=metric, estimators=estimators).to_html()
+                + "\n\n"
+            )
+        if "shift_table" in modes:
+            res += "### shift table\n"
+            res += (
+                self.shift_table(metric=metric, estimators=estimators).to_html()
+                + "\n\n"
+            )
+
+        plot_modes = [m for m in modes if not m.endswith("table")]
+        for mode in plot_modes:
+            res += f"### {mode}\n"
+            _, op = self.get_plots(
+                mode=mode,
+                metric=metric,
+                estimators=estimators,
+                conf=conf,
+                save_fig=True,
+                base_path=plot_path,
+            )
+            res += f"![plot_{mode}]({op.relative_to(op.parents[1]).as_posix()})\n"
+
+        return res
+
+
+def _cr_train_prev(cr: CompReport):
+    return tuple(np.around(cr.train_prev, decimals=2))
+
+
+def _cr_data(cr: CompReport, metric=None, estimators=None):
+    return cr.data(metric, estimators)
+
+
+def _key_reverse_delta_train(idx):
+    idx = idx.to_numpy()
+    sorted_idx = np.array(
+        sorted(list(idx), key=lambda x: x[-1]), dtype=("float," * len(idx[0]))[:-1]
+    )
+    # get sorting index
+    nparr = np.nonzero(idx[:, None] == sorted_idx)[1]
+    return nparr
+
+
+class DatasetReport:
+    _default_dr_modes = [
+        "delta_train",
+        "stdev_train",
+        "train_table",
+        "train_std_table",
+        "shift",
+        "shift_table",
+        "delta_test",
+        "stdev_test",
+        "test_table",
+        "diagonal",
+        "stats_table",
+        "fit_scores",
+    ]
+    _default_cr_modes = CompReport._default_modes
+
+    def __init__(self, name, crs=None):
+        self.name = name
+        self.crs: List[CompReport] = [] if crs is None else crs
+
+    def sort_delta_train_index(self, data):
+        # data_ = data.sort_index(axis=0, level=0, ascending=True, sort_remaining=False)
+        data_ = data.sort_index(
+            axis=0,
+            level=0,
+            key=_key_reverse_delta_train,
+        )
+        print(data_.index)
+        return data_
+
+    def join(self, other, estimators=None):
+        _crs = [
+            s_cr.join(o_cr, estimators=estimators)
+            for s_cr, o_cr in zip(self.crs, other.crs)
+        ]
+
+        return DatasetReport(self.name, _crs)
+
+    def fit_scores(self, metric: str = None, estimators: List[str] = None):
+        def _get_sort_idx(arr):
+            return np.array([np.searchsorted(np.sort(a), a) + 1 for a in arr])
+
+        def _get_best_idx(arr):
+            return np.argmin(arr, axis=1)
+
+        def _fdata_idx(idx) -> np.ndarray:
+            return _fdata.loc[(idx, slice(None), slice(None)), :].to_numpy()
+
+        _crs_train = [_cr_train_prev(cr) for cr in self.crs]
+
+        for cr in self.crs:
+            if not hasattr(cr, "fit_scores"):
+                return None
+
+        _crs_fit_scores = [cr.fit_scores for cr in self.crs]
+
+        _fit_scores = pd.DataFrame(_crs_fit_scores, index=_crs_train)
+        _fit_scores = _fit_scores.sort_index(axis=0, ascending=False)
+
+        _estimators = _get_estimators(estimators, _fit_scores.columns)
+        if _estimators.shape[0] == 0:
+            return None
+
+        _fdata = self.data(metric=metric, estimators=_estimators)
+
+        # ensure that columns in _fit_scores have the same ordering of _fdata
+        _fit_scores = _fit_scores.loc[:, _fdata.columns]
+
+        _best_fit_estimators = _get_best_idx(_fit_scores.to_numpy())
+
+        # scores = np.array(
+        #     [
+        #         _get_sort_idx(
+        #             _fdata.loc[(idx, slice(None), slice(None)), :].to_numpy()
+        #         )[:, cl].mean()
+        #         for idx, cl in zip(_fit_scores.index, _best_fit_estimators)
+        #     ]
+        # )
+        # for idx, cl in zip(_fit_scores.index, _best_fit_estimators):
+        #     print(_fdata_idx(idx)[:, cl])
+        #     print(_fdata_idx(idx).min(axis=1), end="\n\n")
+
+        scores = np.array(
+            [
+                np.abs(_fdata_idx(idx)[:, cl] - _fdata_idx(idx).min(axis=1)).mean()
+                for idx, cl in zip(_fit_scores.index, _best_fit_estimators)
+            ]
+        )
+
+        return scores
+
+    def data(self, metric: str = None, estimators: List[str] = None) -> pd.DataFrame:
+        _crs_sorted = sorted(
+            [(_cr_train_prev(cr), _cr_data(cr, metric, estimators)) for cr in self.crs],
+            key=lambda cr: len(cr[1].columns),
+            reverse=True,
+        )
+        _crs_train, _crs_data = zip(*_crs_sorted)
+
+        _data: pd.DataFrame = pd.concat(
+            _crs_data,
+            axis=0,
+            keys=_crs_train,
+        )
+
+        # The MultiIndex is recreated to make the outer-most level a tuple and not a
+        # sequence of values
+        _len_tr_idx = len(_crs_train[0])
+        _idx = _data.index.to_list()
+        _idx = pd.MultiIndex.from_tuples(
+            [tuple([midx[:_len_tr_idx]] + list(midx[_len_tr_idx:])) for midx in _idx]
+        )
+        _data.index = _idx
+
+        _data = _data.sort_index(axis=0, level=0, ascending=False, sort_remaining=False)
+
+        return _data
+
+    def shift_data(
+        self, metric: str = None, estimators: List[str] = None
+    ) -> pd.DataFrame:
+        _shift_data: pd.DataFrame = pd.concat(
+            sorted(
+                [cr.shift_data(metric, estimators) for cr in self.crs],
+                key=lambda d: len(d.columns),
+                reverse=True,
+            ),
+            axis=0,
+        )
+
+        shift_idx_0 = _shift_data.index.get_level_values(0)
+
+        shift_idx_1 = np.empty(shape=shift_idx_0.shape, dtype="<i4")
+        for _id in np.unique(shift_idx_0):
+            _wh = np.where(shift_idx_0 == _id)[0]
+            shift_idx_1[_wh] = np.arange(_wh.shape[0])
+
+        _shift_data.index = pd.MultiIndex.from_arrays([shift_idx_0, shift_idx_1])
+        _shift_data = _shift_data.sort_index(axis=0, level=0)
+
+        return _shift_data
+
+    def add(self, cr: CompReport):
+        if cr is None:
+            return
+
+        self.crs.append(cr)
+
+    def __add__(self, cr: CompReport):
+        if cr is None:
+            return
+
+        return DatasetReport(self.name, crs=self.crs + [cr])
+
+    def __iadd__(self, cr: CompReport):
+        self.add(cr)
+        return self
+
+    def train_table(
+        self, metric: str = None, estimators: List[str] = None
+    ) -> pd.DataFrame:
+        f_data = self.data(metric=metric, estimators=estimators)
+        avg_p = f_data.groupby(level=1, sort=False).mean()
+        avg_p.loc["mean", :] = f_data.mean()
+        return avg_p
+
+    def train_std_table(self, metric: str = None, estimators: List[str] = None):
+        f_data = self.data(metric=metric, estimators=estimators)
+        avg_p = f_data.groupby(level=1, sort=False).mean()
+        avg_p.loc["mean", :] = f_data.mean()
+        avg_s = f_data.groupby(level=1, sort=False).std()
+        avg_s.loc["mean", :] = f_data.std()
+        avg_r = pd.concat([avg_p, avg_s], axis=1, keys=["avg", "std"])
+        return avg_r
+
+    def test_table(
+        self, metric: str = None, estimators: List[str] = None
+    ) -> pd.DataFrame:
+        f_data = self.data(metric=metric, estimators=estimators)
+        avg_p = f_data.groupby(level=0, sort=False).mean()
+        avg_p.loc["mean", :] = f_data.mean()
+        return avg_p
+
+    def shift_table(
+        self, metric: str = None, estimators: List[str] = None
+    ) -> pd.DataFrame:
+        f_data = self.shift_data(metric=metric, estimators=estimators)
+        avg_p = f_data.groupby(level=0, sort=False).mean()
+        avg_p.loc["mean", :] = f_data.mean()
+        return avg_p
+
+    def get_plots(
+        self,
+        data=None,
+        mode="delta_train",
+        metric="acc",
+        estimators=None,
+        conf="default",
+        save_fig=True,
+        base_path=None,
+        backend=None,
+    ):
+        if mode == "delta_train":
+            _data = self.data(metric, estimators) if data is None else data
+            avg_on_train = _data.groupby(level=1, sort=False).mean()
+            if avg_on_train.empty:
+                return None
+            # sort index in reverse order
+            avg_on_train = self.sort_delta_train_index(avg_on_train)
+            prevs_on_train = avg_on_train.index.unique(0)
+            return plot.plot_delta(
+                # base_prevs=np.around(
+                #     [(1.0 - p, p) for p in prevs_on_train], decimals=2
+                # ),
+                base_prevs=prevs_on_train,
+                columns=avg_on_train.columns.to_numpy(),
+                data=avg_on_train.T.to_numpy(),
+                metric=metric,
+                name=conf,
+                train_prev=None,
+                avg="train",
+                save_fig=save_fig,
+                base_path=base_path,
+                backend=backend,
+            )
+        elif mode == "stdev_train":
+            _data = self.data(metric, estimators) if data is None else data
+            avg_on_train = _data.groupby(level=1, sort=False).mean()
+            if avg_on_train.empty:
+                return None
+            prevs_on_train = avg_on_train.index.unique(0)
+            stdev_on_train = _data.groupby(level=1, sort=False).std()
+            return plot.plot_delta(
+                # base_prevs=np.around(
+                #     [(1.0 - p, p) for p in prevs_on_train], decimals=2
+                # ),
+                base_prevs=prevs_on_train,
+                columns=avg_on_train.columns.to_numpy(),
+                data=avg_on_train.T.to_numpy(),
+                metric=metric,
+                name=conf,
+                train_prev=None,
+                stdevs=stdev_on_train.T.to_numpy(),
+                avg="train",
+                save_fig=save_fig,
+                base_path=base_path,
+                backend=backend,
+            )
+        elif mode == "delta_test":
+            _data = self.data(metric, estimators) if data is None else data
+            avg_on_test = _data.groupby(level=0, sort=False).mean()
+            if avg_on_test.empty:
+                return None
+            prevs_on_test = avg_on_test.index.unique(0)
+            return plot.plot_delta(
+                # base_prevs=np.around([(1.0 - p, p) for p in prevs_on_test], decimals=2),
+                base_prevs=prevs_on_test,
+                columns=avg_on_test.columns.to_numpy(),
+                data=avg_on_test.T.to_numpy(),
+                metric=metric,
+                name=conf,
+                train_prev=None,
+                avg="test",
+                save_fig=save_fig,
+                base_path=base_path,
+                backend=backend,
+            )
+        elif mode == "stdev_test":
+            _data = self.data(metric, estimators) if data is None else data
+            avg_on_test = _data.groupby(level=0, sort=False).mean()
+            if avg_on_test.empty:
+                return None
+            prevs_on_test = avg_on_test.index.unique(0)
+            stdev_on_test = _data.groupby(level=0, sort=False).std()
+            return plot.plot_delta(
+                # base_prevs=np.around([(1.0 - p, p) for p in prevs_on_test], decimals=2),
+                base_prevs=prevs_on_test,
+                columns=avg_on_test.columns.to_numpy(),
+                data=avg_on_test.T.to_numpy(),
+                metric=metric,
+                name=conf,
+                train_prev=None,
+                stdevs=stdev_on_test.T.to_numpy(),
+                avg="test",
+                save_fig=save_fig,
+                base_path=base_path,
+                backend=backend,
+            )
+        elif mode == "shift":
+            _shift_data = self.shift_data(metric, estimators) if data is None else data
+            avg_shift = _shift_data.groupby(level=0, sort=False).mean()
+            if avg_shift.empty:
+                return None
+            count_shift = _shift_data.groupby(level=0, sort=False).count()
+            prevs_shift = avg_shift.index.unique(0)
+            return plot.plot_shift(
+                # shift_prevs=np.around([(1.0 - p, p) for p in prevs_shift], decimals=2),
+                shift_prevs=prevs_shift,
+                columns=avg_shift.columns.to_numpy(),
+                data=avg_shift.T.to_numpy(),
+                metric=metric,
+                name=conf,
+                train_prev=None,
+                counts=count_shift.T.to_numpy(),
+                save_fig=save_fig,
+                base_path=base_path,
+                backend=backend,
+            )
+        elif mode == "fit_scores":
+            _fit_scores = self.fit_scores(metric, estimators) if data is None else data
+            if _fit_scores is None:
+                return None
+            train_prevs = self.data(metric, estimators).index.unique(0)
+            return plot.plot_fit_scores(
+                train_prevs=train_prevs,
+                scores=_fit_scores,
+                metric=metric,
+                name=conf,
+                save_fig=save_fig,
+                base_path=base_path,
+                backend=backend,
+            )
+        elif mode == "diagonal":
+            f_data = self.data(metric=metric + "_score", estimators=estimators)
+            if f_data.empty:
+                return None
+
+            ref: pd.Series = f_data.loc[:, "ref"]
+            f_data.drop(columns=["ref"], inplace=True)
+            return plot.plot_diagonal(
+                reference=ref.to_numpy(),
+                columns=f_data.columns.to_numpy(),
+                data=f_data.T.to_numpy(),
+                metric=metric,
+                name=conf,
+                # train_prev=self.train_prev,
+                fixed_lim=True,
+                save_fig=save_fig,
+                base_path=base_path,
+                backend=backend,
+            )
+
+    def to_md(
+        self,
+        conf="default",
+        metric="acc",
+        estimators=[],
+        dr_modes=_default_dr_modes,
+        cr_modes=_default_cr_modes,
+        cr_prevs: List[str] = None,
+        plot_path=None,
+    ):
+        res = f"# {self.name}\n\n"
+        for cr in self.crs:
+            if (
+                cr_prevs is not None
+                and str(round(cr.train_prev[1] * 100)) not in cr_prevs
+            ):
+                continue
+            _md = cr.to_md(
+                conf,
+                metric=metric,
+                estimators=estimators,
+                modes=cr_modes,
+                plot_path=plot_path,
+            )
+            res += f"{_md}\n\n"
+
+        _data = self.data(metric=metric, estimators=estimators)
+        _shift_data = self.shift_data(metric=metric, estimators=estimators)
+
+        res += "## avg\n"
+
+        ######################## avg on train ########################
+        res += "### avg on train\n"
+
+        if "train_table" in dr_modes:
+            avg_on_train_tbl = _data.groupby(level=1, sort=False).mean()
+            avg_on_train_tbl.loc["avg", :] = _data.mean()
+            res += avg_on_train_tbl.to_html() + "\n\n"
+
+        if "delta_train" in dr_modes:
+            _, delta_op = self.get_plots(
+                data=_data,
+                mode="delta_train",
+                metric=metric,
+                estimators=estimators,
+                conf=conf,
+                base_path=plot_path,
+                save_fig=True,
+            )
+            _op = delta_op.relative_to(delta_op.parents[1]).as_posix()
+            res += f"![plot_delta]({_op})\n"
+
+        if "stdev_train" in dr_modes:
+            _, delta_stdev_op = self.get_plots(
+                data=_data,
+                mode="stdev_train",
+                metric=metric,
+                estimators=estimators,
+                conf=conf,
+                base_path=plot_path,
+                save_fig=True,
+            )
+            _op = delta_stdev_op.relative_to(delta_stdev_op.parents[1]).as_posix()
+            res += f"![plot_delta_stdev]({_op})\n"
+
+        ######################## avg on test ########################
+        res += "### avg on test\n"
+
+        if "test_table" in dr_modes:
+            avg_on_test_tbl = _data.groupby(level=0, sort=False).mean()
+            avg_on_test_tbl.loc["avg", :] = _data.mean()
+            res += avg_on_test_tbl.to_html() + "\n\n"
+
+        if "delta_test" in dr_modes:
+            _, delta_op = self.get_plots(
+                data=_data,
+                mode="delta_test",
+                metric=metric,
+                estimators=estimators,
+                conf=conf,
+                base_path=plot_path,
+                save_fig=True,
+            )
+            _op = delta_op.relative_to(delta_op.parents[1]).as_posix()
+            res += f"![plot_delta]({_op})\n"
+
+        if "stdev_test" in dr_modes:
+            _, delta_stdev_op = self.get_plots(
+                data=_data,
+                mode="stdev_test",
+                metric=metric,
+                estimators=estimators,
+                conf=conf,
+                base_path=plot_path,
+                save_fig=True,
+            )
+            _op = delta_stdev_op.relative_to(delta_stdev_op.parents[1]).as_posix()
+            res += f"![plot_delta_stdev]({_op})\n"
+
+        ######################## avg shift ########################
+        res += "### avg dataset shift\n"
+
+        if "shift_table" in dr_modes:
+            shift_on_train_tbl = _shift_data.groupby(level=0, sort=False).mean()
+            shift_on_train_tbl.loc["avg", :] = _shift_data.mean()
+            res += shift_on_train_tbl.to_html() + "\n\n"
+
+        if "shift" in dr_modes:
+            _, shift_op = self.get_plots(
+                data=_shift_data,
+                mode="shift",
+                metric=metric,
+                estimators=estimators,
+                conf=conf,
+                base_path=plot_path,
+                save_fig=True,
+            )
+            _op = shift_op.relative_to(shift_op.parents[1]).as_posix()
+            res += f"![plot_shift]({_op})\n"
+
+        return res
+
+    def pickle(self, pickle_path: Path):
+        with open(pickle_path, "wb") as f:
+            pickle.dump(self, f)
+
+        return self
+
+    @classmethod
+    def unpickle(cls, pickle_path: Path, report_info=False):
+        with open(pickle_path, "rb") as f:
+            dr = pickle.load(f)
+
+        if report_info:
+            return DatasetReportInfo(dr, pickle_path)
+
+        return dr
+
+    def __iter__(self):
+        return (cr for cr in self.crs)
+
+
+class DatasetReportInfo:
+    def __init__(self, dr: DatasetReport, path: Path):
+        self.dr = dr
+        self.name = str(path.parent)
+        _data = dr.data()
+        self.columns = defaultdict(list)
+        for metric, estim in _data.columns:
+            self.columns[estim].append(metric)
+        # self.columns = list(_data.columns.unique(1))
+        self.train_prevs = len(self.dr.crs)
+        self.test_prevs = len(_data.index.unique(1))
+        self.repeats = len(_data.index.unique(2))
+
+    def __repr__(self) -> str:
+        _d = {
+            "train prevs.": self.train_prevs,
+            "test prevs.": self.test_prevs,
+            "repeats": self.repeats,
+            "columns": self.columns,
+        }
+        _r = f"{self.name}\n{json.dumps(_d, indent=2)}\n"
+
+        return _r
--- a/quacc/legacy/evaluation/stats.py
+++ b/quacc/legacy/evaluation/stats.py
@ -0,0 +1,41 @@
+from typing import List
+
+import numpy as np
+import pandas as pd
+from scipy import stats as sp_stats
+
+# from quacc.evaluation.estimators import CE
+from quacc.legacy.evaluation.report import CompReport, DatasetReport
+
+
+def shapiro(
+    r: DatasetReport | CompReport, metric: str = None, estimators: List[str] = None
+) -> pd.DataFrame:
+    _data = r.data(metric, estimators)
+    shapiro_data = np.array(
+        [sp_stats.shapiro(_data.loc[:, e]) for e in _data.columns.unique(0)]
+    ).T
+    dr_index = ["shapiro_W", "shapiro_p"]
+    dr_columns = _data.columns.unique(0)
+    return pd.DataFrame(shapiro_data, columns=dr_columns, index=dr_index)
+
+
+def wilcoxon(
+    r: DatasetReport | CompReport, metric: str = None, estimators: List[str] = None
+) -> pd.DataFrame:
+    _data = r.data(metric, estimators)
+
+    _data = _data.dropna(axis=0, how="any")
+    _wilcoxon = {}
+    for est in _data.columns.unique(0):
+        _wilcoxon[est] = [
+            sp_stats.wilcoxon(_data.loc[:, est], _data.loc[:, e]).pvalue
+            if e != est
+            else 1.0
+            for e in _data.columns.unique(0)
+        ]
+    wilcoxon_data = np.array(list(_wilcoxon.values()))
+
+    dr_index = list(_wilcoxon.keys())
+    dr_columns = _data.columns.unique(0)
+    return pd.DataFrame(wilcoxon_data, columns=dr_columns, index=dr_index)
--- a/quacc/legacy/main.py
+++ b/quacc/legacy/main.py
@ -0,0 +1,58 @@
+from traceback import print_exception as traceback
+
+import quacc.legacy.evaluation.comp as comp
+
+# from quacc.logger import Logger
+from quacc import logger
+from quacc.dataset import Dataset
+from quacc.legacy.environment import env
+from quacc.legacy.evaluation.estimators import CE
+from quacc.utils.commons import create_dataser_dir
+
+
+def estimate_comparison():
+    # log = Logger.logger()
+    log = logger.logger()
+    for conf in env.load_confs():
+        dataset = Dataset(
+            env.DATASET_NAME,
+            target=env.DATASET_TARGET,
+            n_prevalences=env.DATASET_N_PREVS,
+            prevs=env.DATASET_PREVS,
+        )
+        create_dataser_dir(
+            dataset.name,
+            update=env.DATASET_DIR_UPDATE,
+        )
+        # Logger.add_handler(env.OUT_DIR / f"{dataset.name}.log")
+        logger.add_handler(env.OUT_DIR / f"{dataset.name}.log")
+        try:
+            dr = comp.evaluate_comparison(
+                dataset,
+                estimators=CE.name[env.COMP_ESTIMATORS],
+            )
+            dr.pickle(env.OUT_DIR / f"{dataset.name}.pickle")
+        except Exception as e:
+            log.error(f"Evaluation over {dataset.name} failed. Exception: {e}")
+            traceback(e)
+
+        # Logger.clear_handlers()
+        logger.clear_handlers()
+
+
+def main():
+    # log = Logger.logger()
+    log = logger.setup_logger()
+
+    try:
+        estimate_comparison()
+    except Exception as e:
+        log.error(f"estimate comparison failed. Exception: {e}")
+        traceback(e)
+
+    # Logger.close()
+    logger.logger_manager().close()
+
+
+if __name__ == "__main__":
+    main()
--- a/quacc/legacy/method/init.py
+++ b/quacc/legacy/method/init.py
--- a/quacc/legacy/method/base.py
+++ b/quacc/legacy/method/base.py
@ -0,0 +1,353 @@
+from abc import abstractmethod
+from copy import deepcopy
+from typing import List
+
+import numpy as np
+import scipy.sparse as sp
+from quapy.data import LabelledCollection
+from quapy.method.aggregative import BaseQuantifier
+from sklearn.base import BaseEstimator
+
+import quacc.deprecated.method.confidence as conf
+from quacc.legacy.data import (
+    ExtBinPrev,
+    ExtendedCollection,
+    ExtendedData,
+    ExtendedPrev,
+    ExtensionPolicy,
+    ExtMulPrev,
+)
+
+
+class BaseAccuracyEstimator(BaseQuantifier):
+    def __init__(
+        self,
+        classifier: BaseEstimator,
+        quantifier: BaseQuantifier,
+        dense=False,
+    ):
+        self.__check_classifier(classifier)
+        self.quantifier = quantifier
+        self.extpol = ExtensionPolicy(dense=dense)
+
+    def __check_classifier(self, classifier):
+        if not hasattr(classifier, "predict_proba"):
+            raise ValueError(
+                f"Passed classifier {classifier.__class__.__name__} cannot predict probabilities."
+            )
+        self.classifier = classifier
+
+    def extend(self, coll: LabelledCollection, pred_proba=None) -> ExtendedCollection:
+        if pred_proba is None:
+            pred_proba = self.classifier.predict_proba(coll.X)
+
+        return ExtendedCollection.from_lc(
+            coll, pred_proba=pred_proba, ext=pred_proba, extpol=self.extpol
+        )
+
+    def _extend_instances(self, instances: np.ndarray | sp.csr_matrix):
+        pred_proba = self.classifier.predict_proba(instances)
+        return ExtendedData(instances, pred_proba=pred_proba, extpol=self.extpol)
+
+    @abstractmethod
+    def fit(self, train: LabelledCollection | ExtendedCollection): ...
+
+    @abstractmethod
+    def estimate(self, instances, ext=False) -> ExtendedPrev: ...
+
+    @property
+    def dense(self):
+        return self.extpol.dense
+
+
+class ConfidenceBasedAccuracyEstimator(BaseAccuracyEstimator):
+    def __init__(
+        self,
+        classifier: BaseEstimator,
+        quantifier: BaseQuantifier,
+        confidence=None,
+    ):
+        super().__init__(
+            classifier=classifier,
+            quantifier=quantifier,
+        )
+        self.__check_confidence(confidence)
+        self.calibrator = None
+
+    def __check_confidence(self, confidence):
+        if isinstance(confidence, str):
+            self.confidence = [confidence]
+        elif isinstance(confidence, list):
+            self.confidence = confidence
+        else:
+            self.confidence = None
+
+    def _fit_confidence(self, X, y, probas):
+        self.confidence_metrics = conf.get_metrics(self.confidence)
+        if self.confidence_metrics is None:
+            return
+
+        for m in self.confidence_metrics:
+            m.fit(X, y, probas)
+
+    def _get_pred_ext(self, pred_proba: np.ndarray):
+        return pred_proba
+
+    def __get_ext(
+        self, X: np.ndarray | sp.csr_matrix, pred_proba: np.ndarray
+    ) -> np.ndarray:
+        if self.confidence_metrics is None or len(self.confidence_metrics) == 0:
+            return pred_proba
+
+        _conf_ext = np.concatenate(
+            [m.conf(X, pred_proba) for m in self.confidence_metrics],
+            axis=1,
+        )
+
+        _pred_ext = self._get_pred_ext(pred_proba)
+
+        return np.concatenate([_conf_ext, _pred_ext], axis=1)
+
+    def extend(
+        self, coll: LabelledCollection, pred_proba=None, prefit=False
+    ) -> ExtendedCollection:
+        if pred_proba is None:
+            pred_proba = self.classifier.predict_proba(coll.X)
+
+        if prefit:
+            self._fit_confidence(coll.X, coll.y, pred_proba)
+        else:
+            if not hasattr(self, "confidence_metrics"):
+                raise AttributeError(
+                    "Confidence metrics are not fit and cannot be computed."
+                    "Consider setting prefit to True."
+                )
+
+        _ext = self.__get_ext(coll.X, pred_proba)
+        return ExtendedCollection.from_lc(
+            coll, pred_proba=pred_proba, ext=_ext, extpol=self.extpol
+        )
+
+    def _extend_instances(
+        self,
+        instances: np.ndarray | sp.csr_matrix,
+    ) -> ExtendedData:
+        pred_proba = self.classifier.predict_proba(instances)
+        _ext = self.__get_ext(instances, pred_proba)
+        return ExtendedData(
+            instances, pred_proba=pred_proba, ext=_ext, extpol=self.extpol
+        )
+
+
+class MultiClassAccuracyEstimator(ConfidenceBasedAccuracyEstimator):
+    def __init__(
+        self,
+        classifier: BaseEstimator,
+        quantifier: BaseQuantifier,
+        confidence: str = None,
+        collapse_false=False,
+        group_false=False,
+        dense=False,
+    ):
+        super().__init__(
+            classifier=classifier,
+            quantifier=quantifier,
+            confidence=confidence,
+        )
+        self.extpol = ExtensionPolicy(
+            collapse_false=collapse_false,
+            group_false=group_false,
+            dense=dense,
+        )
+        self.e_train = None
+
+    # def _get_pred_ext(self, pred_proba: np.ndarray):
+    #     return np.argmax(pred_proba, axis=1, keepdims=True)
+
+    def _get_multi_quant(self, quant, train: LabelledCollection):
+        _nz = np.nonzero(train.counts())[0]
+        if _nz.shape[0] == 1:
+            return TrivialQuantifier(train.n_classes, _nz[0])
+        else:
+            return quant
+
+    def fit(self, train: LabelledCollection):
+        pred_proba = self.classifier.predict_proba(train.X)
+        self._fit_confidence(train.X, train.y, pred_proba)
+        self.e_train = self.extend(train, pred_proba=pred_proba)
+
+        self.quantifier = self._get_multi_quant(self.quantifier, self.e_train)
+        self.quantifier.fit(self.e_train)
+
+        return self
+
+    def estimate(
+        self, instances: ExtendedData | np.ndarray | sp.csr_matrix
+    ) -> ExtendedPrev:
+        e_inst = instances
+        if not isinstance(e_inst, ExtendedData):
+            e_inst = self._extend_instances(instances)
+
+        estim_prev = self.quantifier.quantify(e_inst.X)
+        return ExtMulPrev(
+            estim_prev,
+            e_inst.nbcl,
+            q_classes=self.quantifier.classes_,
+            extpol=self.extpol,
+        )
+
+    @property
+    def collapse_false(self):
+        return self.extpol.collapse_false
+
+    @property
+    def group_false(self):
+        return self.extpol.group_false
+
+
+class TrivialQuantifier:
+    def __init__(self, n_classes, trivial_class):
+        self.trivial_class = trivial_class
+
+    def fit(self, train: LabelledCollection):
+        pass
+
+    def quantify(self, inst: LabelledCollection) -> np.ndarray:
+        return np.array([1.0])
+
+    @property
+    def classes_(self):
+        return np.array([self.trivial_class])
+
+
+class QuantifierProxy:
+    def __init__(self, train: LabelledCollection):
+        self.o_nclasses = train.n_classes
+        self.o_classes = train.classes_
+        self.o_index = {c: i for i, c in enumerate(train.classes_)}
+
+        self.mapping = {}
+        self.r_mapping = {}
+        _cnt = 0
+        for cl, c in zip(train.classes_, train.counts()):
+            if c > 0:
+                self.mapping[cl] = _cnt
+                self.r_mapping[_cnt] = cl
+                _cnt += 1
+
+        self.n_nclasses = len(self.mapping)
+
+    def apply_mapping(self, coll: LabelledCollection) -> LabelledCollection:
+        if not self.proxied:
+            return coll
+
+        n_labels = np.copy(coll.labels)
+        for k in self.mapping:
+            n_labels[coll.labels == k] = self.mapping[k]
+
+        return LabelledCollection(coll.X, n_labels, classes=np.arange(self.n_nclasses))
+
+    def apply_rmapping(self, prevs: np.ndarray, q_classes: np.ndarray) -> np.ndarray:
+        if not self.proxied:
+            return prevs, q_classes
+
+        n_qclasses = np.array([self.r_mapping[qc] for qc in q_classes])
+
+        return prevs, n_qclasses
+
+    def get_trivial(self):
+        return TrivialQuantifier(self.o_nclasses, self.n_nclasses)
+
+    @property
+    def proxied(self):
+        return self.o_nclasses != self.n_nclasses
+
+
+class BinaryQuantifierAccuracyEstimator(ConfidenceBasedAccuracyEstimator):
+    def __init__(
+        self,
+        classifier: BaseEstimator,
+        quantifier: BaseAccuracyEstimator,
+        confidence: str = None,
+        group_false: bool = False,
+        dense: bool = False,
+    ):
+        super().__init__(
+            classifier=classifier,
+            quantifier=quantifier,
+            confidence=confidence,
+        )
+        self.quantifiers = []
+        self.extpol = ExtensionPolicy(
+            group_false=group_false,
+            dense=dense,
+        )
+
+    def _get_binary_quant(self, quant, train: LabelledCollection):
+        _nz = np.nonzero(train.counts())[0]
+        if _nz.shape[0] == 1:
+            return TrivialQuantifier(train.n_classes, _nz[0])
+        else:
+            return deepcopy(quant)
+
+    def fit(self, train: LabelledCollection | ExtendedCollection):
+        pred_proba = self.classifier.predict_proba(train.X)
+        self._fit_confidence(train.X, train.y, pred_proba)
+        self.e_train = self.extend(train, pred_proba=pred_proba)
+
+        self.n_classes = self.e_train.n_classes
+        e_trains = self.e_train.split_by_pred()
+
+        self.quantifiers = []
+        for train in e_trains:
+            quant = self._get_binary_quant(self.quantifier, train)
+            quant.fit(train)
+            self.quantifiers.append(quant)
+
+        return self
+
+    def estimate(
+        self, instances: ExtendedData | np.ndarray | sp.csr_matrix
+    ) -> np.ndarray:
+        e_inst = instances
+        if not isinstance(e_inst, ExtendedData):
+            e_inst = self._extend_instances(instances)
+
+        s_inst = e_inst.split_by_pred()
+        norms = [s_i.shape[0] / len(e_inst) for s_i in s_inst]
+        estim_prevs = self._quantify_helper(s_inst, norms)
+
+        # estim_prev = np.concatenate(estim_prevs.T)
+        # return ExtendedPrev(estim_prev, e_inst.nbcl, extpol=self.extpol)
+
+        return ExtBinPrev(
+            estim_prevs,
+            e_inst.nbcl,
+            q_classes=[quant.classes_ for quant in self.quantifiers],
+            extpol=self.extpol,
+        )
+
+    def _quantify_helper(
+        self,
+        s_inst: List[np.ndarray | sp.csr_matrix],
+        norms: List[float],
+    ):
+        estim_prevs = []
+        for quant, inst, norm in zip(self.quantifiers, s_inst, norms):
+            if inst.shape[0] > 0:
+                estim_prev = quant.quantify(inst) * norm
+                estim_prevs.append(estim_prev)
+            else:
+                estim_prevs.append(np.zeros((len(quant.classes_),)))
+
+        # return np.array(estim_prevs)
+        return estim_prevs
+
+    @property
+    def group_false(self):
+        return self.extpol.group_false
+
+
+BAE = BaseAccuracyEstimator
+MCAE = MultiClassAccuracyEstimator
+BQAE = BinaryQuantifierAccuracyEstimator
--- a/quacc/legacy/method/confidence.py
+++ b/quacc/legacy/method/confidence.py
@ -0,0 +1,98 @@
+from typing import List
+
+import numpy as np
+import scipy.sparse as sp
+from sklearn.linear_model import LinearRegression
+
+import baselines.atc as atc
+
+__confs = {}
+
+
+def metric(name):
+    def wrapper(cl):
+        __confs[name] = cl
+        return cl
+
+    return wrapper
+
+
+class ConfidenceMetric:
+    def fit(self, X, y, probas):
+        pass
+
+    def conf(self, X, probas):
+        return probas
+
+
+@metric("max_conf")
+class MaxConf(ConfidenceMetric):
+    def conf(self, X, probas):
+        _mc = np.max(probas, axis=1, keepdims=True)
+        return _mc
+
+
+@metric("entropy")
+class Entropy(ConfidenceMetric):
+    def conf(self, X, probas):
+        _ent = np.sum(
+            np.multiply(probas, np.log(probas + 1e-20)), axis=1, keepdims=True
+        )
+        return _ent
+
+
+@metric("isoft")
+class InverseSoftmax(ConfidenceMetric):
+    def conf(self, X, probas):
+        _probas = probas / np.sum(probas, axis=1, keepdims=True)
+        _probas = np.log(_probas) - np.mean(np.log(_probas), axis=1, keepdims=True)
+        return np.max(_probas, axis=1, keepdims=True)
+
+
+@metric("threshold")
+class Threshold(ConfidenceMetric):
+    def get_scores(self, probas, keepdims=False):
+        return np.max(probas, axis=1, keepdims=keepdims)
+
+    def fit(self, X, y, probas):
+        scores = self.get_scores(probas)
+        _, self.threshold = atc.find_ATC_threshold(scores, y)
+
+    def conf(self, X, probas):
+        scores = self.get_scores(probas, keepdims=True)
+        _exp = scores - self.threshold
+        return _exp
+
+    # def conf(self, X, probas):
+    #     scores = self.get_scores(probas)
+    #     _exp = np.where(
+    #         scores >= self.threshold, np.ones(scores.shape), np.zeros(scores.shape)
+    #     )
+    #     return _exp[:, np.newaxis]
+
+
+@metric("linreg")
+class LinReg(ConfidenceMetric):
+    def extend(self, X, probas):
+        if sp.issparse(X):
+            return sp.hstack([X, probas])
+        else:
+            return np.concatenate([X, probas], axis=1)
+
+    def fit(self, X, y, probas):
+        reg_X = self.extend(X, probas)
+        reg_y = probas[np.arange(probas.shape[0]), y]
+        self.reg = LinearRegression()
+        self.reg.fit(reg_X, reg_y)
+
+    def conf(self, X, probas):
+        reg_X = self.extend(X, probas)
+        return self.reg.predict(reg_X)[:, np.newaxis]
+
+
+def get_metrics(names: List[str]):
+    if names is None:
+        return None
+
+    __fnames = [n for n in names if n in __confs]
+    return [__confs[m]() for m in __fnames]
--- a/quacc/legacy/method/model_selection.py
+++ b/quacc/legacy/method/model_selection.py
@ -0,0 +1,480 @@
+import itertools
+import math
+import os
+from copy import deepcopy
+from time import time
+from typing import Callable, Union
+
+import numpy as np
+from joblib import Parallel
+from quapy.data import LabelledCollection
+from quapy.protocol import (
+    AbstractProtocol,
+    OnLabelledCollectionProtocol,
+)
+
+import quacc as qc
+import quacc.error
+from quacc.deprecated.method.base import (
+    BaseAccuracyEstimator,
+)
+from quacc.legacy.data import ExtendedCollection
+from quacc.legacy.evaluation.evaluate import evaluate
+from quacc.logger import logger
+
+
+class GridSearchAE(BaseAccuracyEstimator):
+    def __init__(
+        self,
+        model: BaseAccuracyEstimator,
+        param_grid: dict,
+        protocol: AbstractProtocol,
+        error: Union[Callable, str] = qc.error.maccd,
+        refit=True,
+        # timeout=-1,
+        n_jobs=None,
+        verbose=False,
+    ):
+        self.model = model
+        self.param_grid = self.__normalize_params(param_grid)
+        self.protocol = protocol
+        self.refit = refit
+        # self.timeout = timeout
+        self.n_jobs = qc._get_njobs(n_jobs)
+        self.verbose = verbose
+        self.__check_error(error)
+        assert isinstance(protocol, AbstractProtocol), "unknown protocol"
+
+    def _sout(self, msg, level=0):
+        if level > 0 or self.verbose:
+            print(f"[{self.__class__.__name__}@{self.model.__class__.__name__}]: {msg}")
+
+    def __normalize_params(self, params):
+        __remap = {}
+        for key in params.keys():
+            k, delim, sub_key = key.partition("__")
+            if delim and k == "q":
+                __remap[key] = f"quantifier__{sub_key}"
+
+        return {(__remap[k] if k in __remap else k): v for k, v in params.items()}
+
+    def __check_error(self, error):
+        if error in qc.error.ACCURACY_ERROR:
+            self.error = error
+        elif isinstance(error, str):
+            self.error = qc.error.from_name(error)
+        elif hasattr(error, "__call__"):
+            self.error = error
+        else:
+            raise ValueError(
+                f"unexpected error type; must either be a callable function or a str representing\n"
+                f"the name of an error function in {qc.error.ACCURACY_ERROR_NAMES}"
+            )
+
+    def fit(self, training: LabelledCollection):
+        """Learning routine. Fits methods with all combinations of hyperparameters and selects the one minimizing
+            the error metric.
+
+        :param training: the training set on which to optimize the hyperparameters
+        :return: self
+        """
+        params_keys = list(self.param_grid.keys())
+        params_values = list(self.param_grid.values())
+
+        protocol = self.protocol
+
+        self.param_scores_ = {}
+        self.best_score_ = None
+
+        tinit = time()
+
+        hyper = [
+            dict(zip(params_keys, val)) for val in itertools.product(*params_values)
+        ]
+
+        self._sout(f"starting model selection with {self.n_jobs =}")
+        # self._sout("starting model selection")
+
+        # scores = [self.__params_eval((params, training)) for params in hyper]
+        scores = self._select_scores(hyper, training)
+
+        for params, score, model in scores:
+            if score is not None:
+                if self.best_score_ is None or score < self.best_score_:
+                    self.best_score_ = score
+                    self.best_params_ = params
+                    self.best_model_ = model
+                self.param_scores_[str(params)] = score
+            else:
+                self.param_scores_[str(params)] = "timeout"
+
+        tend = time() - tinit
+
+        if self.best_score_ is None:
+            raise TimeoutError("no combination of hyperparameters seem to work")
+
+        self._sout(
+            f"optimization finished: best params {self.best_params_} (score={self.best_score_:.5f}) "
+            f"[took {tend:.4f}s]",
+            level=1,
+        )
+
+        # log = Logger.logger()
+        log = logger()
+        log.debug(
+            f"[{self.model.__class__.__name__}] "
+            f"optimization finished: best params {self.best_params_} (score={self.best_score_:.5f}) "
+            f"[took {tend:.4f}s]"
+        )
+
+        if self.refit:
+            if isinstance(protocol, OnLabelledCollectionProtocol):
+                self._sout("refitting on the whole development set")
+                self.best_model_.fit(training + protocol.get_labelled_collection())
+            else:
+                raise RuntimeWarning(
+                    f'"refit" was requested, but the protocol does not '
+                    f"implement the {OnLabelledCollectionProtocol.__name__} interface"
+                )
+
+        return self
+
+    def _select_scores(self, hyper, training):
+        return qc.commons.parallel(
+            self._params_eval,
+            [(params, training) for params in hyper],
+            n_jobs=self.n_jobs,
+            verbose=1,
+        )
+
+    def _params_eval(self, params, training, protocol=None):
+        protocol = self.protocol if protocol is None else protocol
+        error = self.error
+
+        # if self.timeout > 0:
+
+        #     def handler(signum, frame):
+        #         raise TimeoutError()
+
+        #     signal.signal(signal.SIGALRM, handler)
+
+        tinit = time()
+
+        # if self.timeout > 0:
+        #     signal.alarm(self.timeout)
+
+        try:
+            model = deepcopy(self.model)
+            # overrides default parameters with the parameters being explored at this iteration
+            model.set_params(**params)
+            # print({k: v for k, v in model.get_params().items() if k in params})
+            model.fit(training)
+            score = evaluate(model, protocol=protocol, error_metric=error)
+
+            ttime = time() - tinit
+            self._sout(
+                f"hyperparams={params}\t got score {score:.5f} [took {ttime:.4f}s]",
+            )
+
+            # if self.timeout > 0:
+            #     signal.alarm(0)
+        # except TimeoutError:
+        #     self._sout(f"timeout ({self.timeout}s) reached for config {params}")
+        #     score = None
+        except ValueError as e:
+            self._sout(
+                f"the combination of hyperparameters {params} is invalid. Exception: {e}",
+                level=1,
+            )
+            score = None
+            # raise e
+        except Exception as e:
+            self._sout(
+                f"something went wrong for config {params}; skipping:"
+                f"\tException: {e}",
+                level=1,
+            )
+            # raise e
+            score = None
+
+        return params, score, model
+
+    def extend(
+        self, coll: LabelledCollection, pred_proba=None, prefit=False
+    ) -> ExtendedCollection:
+        assert hasattr(self, "best_model_"), "quantify called before fit"
+        return self.best_model().extend(coll, pred_proba=pred_proba, prefit=prefit)
+
+    def estimate(self, instances):
+        """Estimate class prevalence values using the best model found after calling the :meth:`fit` method.
+
+        :param instances: sample contanining the instances
+        :return: a ndarray of shape `(n_classes)` with class prevalence estimates as according to the best model found
+            by the model selection process.
+        """
+
+        assert hasattr(self, "best_model_"), "estimate called before fit"
+        return self.best_model().estimate(instances)
+
+    def set_params(self, **parameters):
+        """Sets the hyper-parameters to explore.
+
+        :param parameters: a dictionary with keys the parameter names and values the list of values to explore
+        """
+        self.param_grid = parameters
+
+    def get_params(self, deep=True):
+        """Returns the dictionary of hyper-parameters to explore (`param_grid`)
+
+        :param deep: Unused
+        :return: the dictionary `param_grid`
+        """
+        return self.param_grid
+
+    def best_model(self):
+        """
+        Returns the best model found after calling the :meth:`fit` method, i.e., the one trained on the combination
+        of hyper-parameters that minimized the error function.
+
+        :return: a trained quantifier
+        """
+        if hasattr(self, "best_model_"):
+            return self.best_model_
+        raise ValueError("best_model called before fit")
+
+    def best_score(self):
+        if hasattr(self, "best_score_"):
+            return self.best_score_
+        raise ValueError("best_score called before fit")
+
+
+class RandomizedSearchAE(GridSearchAE):
+    ERR_THRESHOLD = 1e-4
+    MAX_ITER_IMPROV = 3
+
+    def _select_scores(self, hyper, training: LabelledCollection):
+        log = logger()
+        hyper = np.array(hyper)
+        rand_index = np.random.choice(
+            np.arange(len(hyper)), size=len(hyper), replace=False
+        )
+        _n_jobs = os.cpu_count() + 1 + self.n_jobs if self.n_jobs < 0 else self.n_jobs
+        batch_size = _n_jobs
+
+        log.debug(f"{batch_size = }")
+        rand_index = list(
+            rand_index[: (len(hyper) // batch_size) * batch_size].reshape(
+                (len(hyper) // batch_size, batch_size)
+            )
+        ) + [rand_index[(len(hyper) // batch_size) * batch_size :]]
+        scores = []
+        best_score, iter_from_improv = np.inf, 0
+        with Parallel(n_jobs=self.n_jobs) as parallel:
+            for i, ri in enumerate(rand_index):
+                tstart = time()
+                _iter_scores = qc.commons.parallel(
+                    self._params_eval,
+                    [(params, training) for params in hyper[ri]],
+                    parallel=parallel,
+                )
+                _best_iter_score = np.min(
+                    [s for _, s, _ in _iter_scores if s is not None]
+                )
+
+                log.debug(
+                    f"[iter {i}] best score = {_best_iter_score:.8f} [took {time() - tstart:.3f}s]"
+                )
+                scores += _iter_scores
+
+                _check, best_score, iter_from_improv = self.__stop_condition(
+                    _best_iter_score, best_score, iter_from_improv
+                )
+                if _check:
+                    break
+
+        return scores
+
+    def __stop_condition(self, best_iter_score, best_score, iter_from_improv):
+        if best_iter_score < best_score:
+            _improv = best_score - best_iter_score
+            best_score = best_iter_score
+        else:
+            _improv = 0
+
+        if _improv > self.ERR_THRESHOLD:
+            iter_from_improv = 0
+        else:
+            iter_from_improv += 1
+
+        return iter_from_improv > self.MAX_ITER_IMPROV, best_score, iter_from_improv
+
+
+class HalvingSearchAE(GridSearchAE):
+    def _select_scores(self, hyper, training: LabelledCollection):
+        log = logger()
+        hyper = np.array(hyper)
+
+        threshold = 22
+        factor = 3
+        n_steps = math.ceil(math.log(len(hyper) / threshold, factor))
+        steps = np.logspace(n_steps, 0, base=1.0 / factor, num=n_steps + 1)
+        with Parallel(n_jobs=self.n_jobs, verbose=1) as parallel:
+            for _step in steps:
+                tstart = time()
+                _training, _ = (
+                    training.split_stratified(train_prop=_step)
+                    if _step < 1.0
+                    else (training, None)
+                )
+
+                results = qc.commons.parallel(
+                    self._params_eval,
+                    [(params, _training) for params in hyper],
+                    parallel=parallel,
+                )
+                scores = [(1.0 if s is None else s) for _, s, _ in results]
+                res_hyper = np.array([h for h, _, _ in results], dtype="object")
+                sorted_scores_idx = np.argsort(scores)
+                best_score = scores[sorted_scores_idx[0]]
+                hyper = res_hyper[
+                    sorted_scores_idx[: round(len(res_hyper) * (1.0 / factor))]
+                ]
+
+                log.debug(
+                    f"[step {_step}] best score = {best_score:.8f} [took {time() - tstart:.3f}s]"
+                )
+
+        return results
+
+
+class SpiderSearchAE(GridSearchAE):
+    def __init__(
+        self,
+        model: BaseAccuracyEstimator,
+        param_grid: dict,
+        protocol: AbstractProtocol,
+        error: Union[Callable, str] = qc.error.maccd,
+        refit=True,
+        n_jobs=None,
+        verbose=False,
+        err_threshold=1e-4,
+        max_iter_improv=0,
+        pd_th_min=1,
+        best_width=2,
+    ):
+        super().__init__(
+            model=model,
+            param_grid=param_grid,
+            protocol=protocol,
+            error=error,
+            refit=refit,
+            n_jobs=n_jobs,
+            verbose=verbose,
+        )
+        self.err_threshold = err_threshold
+        self.max_iter_improv = max_iter_improv
+        self.pd_th_min = pd_th_min
+        self.best_width = best_width
+
+    def _select_scores(self, hyper, training: LabelledCollection):
+        log = logger()
+        hyper = np.array(hyper)
+        _n_jobs = os.cpu_count() + 1 + self.n_jobs if self.n_jobs < 0 else self.n_jobs
+        batch_size = _n_jobs
+
+        rand_index = np.arange(len(hyper))
+        np.random.shuffle(rand_index)
+        rand_index = rand_index[:batch_size]
+        remaining_index = np.setdiff1d(np.arange(len(hyper)), rand_index)
+        _hyper, _hyper_remaining = hyper[rand_index], hyper[remaining_index]
+
+        scores = []
+        best_score, last_best, iter_from_improv = np.inf, np.inf, 0
+        with Parallel(n_jobs=self.n_jobs, verbose=1) as parallel:
+            while len(_hyper) > 0:
+                # log.debug(f"{len(_hyper_remaining)=}")
+                tstart = time()
+                _iter_scores = qc.commons.parallel(
+                    self._params_eval,
+                    [(params, training) for params in _hyper],
+                    parallel=parallel,
+                )
+
+                # if all scores are None, select a new random batch
+                if all([s[1] is None for s in _iter_scores]):
+                    rand_index = np.arange(len(_hyper_remaining))
+                    np.random.shuffle(rand_index)
+                    rand_index = rand_index[:batch_size]
+                    remaining_index = np.setdiff1d(
+                        np.arange(len(_hyper_remaining)), rand_index
+                    )
+                    _hyper = _hyper_remaining[rand_index]
+                    _hyper_remaining = _hyper_remaining[remaining_index]
+                    continue
+
+                _sorted_idx = np.argsort(
+                    [1.0 if s is None else s for _, s, _ in _iter_scores]
+                )
+                _sorted_scores = np.array(_iter_scores, dtype="object")[_sorted_idx]
+                _best_iter_params = np.array(
+                    [p for p, _, _ in _sorted_scores], dtype="object"
+                )
+                _best_iter_scores = np.array(
+                    [s for _, s, _ in _sorted_scores], dtype="object"
+                )
+
+                for i, (_score, _param) in enumerate(
+                    zip(
+                        _best_iter_scores[: self.best_width],
+                        _best_iter_params[: self.best_width],
+                    )
+                ):
+                    log.debug(
+                        f"[size={len(_hyper)},place={i+1}] best score = {_score:.8f}; "
+                        f"best param = {_param} [took {time() - tstart:.3f}s]"
+                    )
+                scores += _iter_scores
+
+                _improv = best_score - _best_iter_scores[0]
+                _improv_last = last_best - _best_iter_scores[0]
+                if _improv > self.err_threshold:
+                    iter_from_improv = 0
+                    best_score = _best_iter_scores[0]
+                elif _improv_last < 0:
+                    iter_from_improv += 1
+
+                last_best = _best_iter_scores[0]
+
+                if iter_from_improv > self.max_iter_improv:
+                    break
+
+                _new_hyper = np.array([], dtype="object")
+                for _base_param in _best_iter_params[: self.best_width]:
+                    _rem_pds = np.array(
+                        [
+                            self.__param_distance(_base_param, h)
+                            for h in _hyper_remaining
+                        ]
+                    )
+                    _rem_pd_sort_idx = np.argsort(_rem_pds)
+                    # _min_pd = np.min(_rem_pds)
+                    _min_pd_len = (_rem_pds <= self.pd_th_min).nonzero()[0].shape[0]
+                    _new_hyper_idx = _rem_pd_sort_idx[:_min_pd_len]
+                    _hyper_rem_idx = np.setdiff1d(
+                        np.arange(len(_hyper_remaining)), _new_hyper_idx
+                    )
+                    _new_hyper = np.concatenate(
+                        [_new_hyper, _hyper_remaining[_new_hyper_idx]]
+                    )
+                    _hyper_remaining = _hyper_remaining[_hyper_rem_idx]
+                _hyper = _new_hyper
+
+        return scores
+
+    def __param_distance(self, param1, param2):
+        score = 0
+        for k, v in param1.items():
+            if param2[k] != v:
+                score += 1
+
+        return score
--- a/quacc/legacy/plot/base.py
+++ b/quacc/legacy/plot/base.py
@ -0,0 +1,68 @@
+from pathlib import Path
+
+
+class BasePlot:
+    @classmethod
+    def save_fig(cls, fig, base_path, title) -> Path:
+        ...
+
+    @classmethod
+    def plot_diagonal(
+        cls,
+        reference,
+        columns,
+        data,
+        *,
+        pos_class=1,
+        title="default",
+        x_label="true",
+        y_label="estim.",
+        fixed_lim=False,
+        legend=True,
+    ):
+        ...
+
+    @classmethod
+    def plot_delta(
+        cls,
+        base_prevs,
+        columns,
+        data,
+        *,
+        stdevs=None,
+        pos_class=1,
+        title="default",
+        x_label="prevs.",
+        y_label="error",
+        legend=True,
+    ):
+        ...
+
+    @classmethod
+    def plot_shift(
+        cls,
+        shift_prevs,
+        columns,
+        data,
+        *,
+        counts=None,
+        pos_class=1,
+        title="default",
+        x_label="true",
+        y_label="estim.",
+        legend=True,
+    ):
+        ...
+
+    @classmethod
+    def plot_fit_scores(
+        train_prevs,
+        scores,
+        *,
+        pos_class=1,
+        title="default",
+        x_label="prev.",
+        y_label="position",
+        legend=True,
+    ):
+        ...
--- a/quacc/legacy/plot/mpl.py
+++ b/quacc/legacy/plot/mpl.py
@ -0,0 +1,238 @@
+from pathlib import Path
+from re import X
+
+import matplotlib
+import matplotlib.pyplot as plt
+import numpy as np
+from cycler import cycler
+from sklearn import base
+
+from quacc.legacy.plot.base import BasePlot
+from quacc.utils import commons
+
+matplotlib.use("agg")
+
+
+class MplPlot(BasePlot):
+    def _get_markers(self, n: int):
+        ls = "ovx+sDph*^1234X><.Pd"
+        if n > len(ls):
+            ls = ls * (n / len(ls) + 1)
+        return list(ls)[:n]
+
+    def save_fig(self, fig, base_path, title) -> Path:
+        if base_path is None:
+            base_path = commons.get_quacc_home() / "plots"
+        output_path = base_path / f"{title}.png"
+        fig.savefig(output_path, bbox_inches="tight")
+        return output_path
+
+    def plot_delta(
+        self,
+        base_prevs,
+        columns,
+        data,
+        *,
+        stdevs=None,
+        pos_class=1,
+        title="default",
+        x_label="prevs.",
+        y_label="error",
+        legend=True,
+    ):
+        fig, ax = plt.subplots()
+        ax.set_aspect("auto")
+        ax.grid()
+
+        NUM_COLORS = len(data)
+        cm = plt.get_cmap("tab10")
+        if NUM_COLORS > 10:
+            cm = plt.get_cmap("tab20")
+        cy = cycler(color=[cm(i) for i in range(NUM_COLORS)])
+
+        # base_prevs = base_prevs[:, pos_class]
+        if isinstance(base_prevs[0], float):
+            base_prevs = np.around([(1 - bp, bp) for bp in base_prevs], decimals=4)
+        str_base_prevs = [str(tuple(bp)) for bp in base_prevs]
+        # xticks = [str(bp) for bp in base_prevs]
+        xticks = np.arange(len(base_prevs))
+        for method, deltas, _cy in zip(columns, data, cy):
+            ax.plot(
+                xticks,
+                deltas,
+                label=method,
+                color=_cy["color"],
+                linestyle="-",
+                marker="o",
+                markersize=3,
+                zorder=2,
+            )
+            if stdevs is not None:
+                _col_idx = np.where(columns == method)[0]
+                stdev = stdevs[_col_idx].flatten()
+                nn_idx = np.intersect1d(
+                    np.where(deltas != np.nan)[0],
+                    np.where(stdev != np.nan)[0],
+                )
+                _bps, _ds, _st = xticks[nn_idx], deltas[nn_idx], stdev[nn_idx]
+                ax.fill_between(
+                    _bps,
+                    _ds - _st,
+                    _ds + _st,
+                    color=_cy["color"],
+                    alpha=0.25,
+                )
+
+        def format_fn(tick_val, tick_pos):
+            if int(tick_val) in xticks:
+                return str_base_prevs[int(tick_val)]
+
+            return ""
+
+        ax.xaxis.set_major_locator(plt.MaxNLocator(nbins=6, integer=True, prune="both"))
+        ax.xaxis.set_major_formatter(format_fn)
+
+        ax.set(
+            xlabel=f"{x_label} prevalence",
+            ylabel=y_label,
+            title=title,
+        )
+
+        if legend:
+            ax.legend(loc="center left", bbox_to_anchor=(1, 0.5))
+
+        return fig
+
+    def plot_diagonal(
+        self,
+        reference,
+        columns,
+        data,
+        *,
+        pos_class=1,
+        title="default",
+        x_label="true",
+        y_label="estim.",
+        legend=True,
+    ):
+        fig, ax = plt.subplots()
+        ax.set_aspect("auto")
+        ax.grid()
+        ax.set_aspect("equal")
+
+        NUM_COLORS = len(data)
+        cm = plt.get_cmap("tab10")
+        if NUM_COLORS > 10:
+            cm = plt.get_cmap("tab20")
+        cy = cycler(
+            color=[cm(i) for i in range(NUM_COLORS)],
+            marker=self._get_markers(NUM_COLORS),
+        )
+
+        reference = np.array(reference)
+        x_ticks = np.unique(reference)
+        x_ticks.sort()
+
+        for deltas, _cy in zip(data, cy):
+            ax.plot(
+                reference,
+                deltas,
+                color=_cy["color"],
+                linestyle="None",
+                marker=_cy["marker"],
+                markersize=3,
+                zorder=2,
+                alpha=0.25,
+            )
+
+        # ensure limits are equal for both axes
+        _alims = np.stack(((ax.get_xlim(), ax.get_ylim())), axis=-1)
+        _lims = np.array([f(ls) for f, ls in zip([np.min, np.max], _alims)])
+        ax.set(xlim=tuple(_lims), ylim=tuple(_lims))
+
+        for method, deltas, _cy in zip(columns, data, cy):
+            slope, interc = np.polyfit(reference, deltas, 1)
+            y_lr = np.array([slope * x + interc for x in _lims])
+            ax.plot(
+                _lims,
+                y_lr,
+                label=method,
+                color=_cy["color"],
+                linestyle="-",
+                markersize="0",
+                zorder=1,
+            )
+
+        # plot reference line
+        ax.plot(
+            _lims,
+            _lims,
+            color="black",
+            linestyle="--",
+            markersize=0,
+            zorder=1,
+        )
+
+        ax.set(xlabel=x_label, ylabel=y_label, title=title)
+
+        if legend:
+            ax.legend(loc="center left", bbox_to_anchor=(1, 0.5))
+
+        return fig
+
+    def plot_shift(
+        self,
+        shift_prevs,
+        columns,
+        data,
+        *,
+        counts=None,
+        pos_class=1,
+        title="default",
+        x_label="true",
+        y_label="estim.",
+        legend=True,
+    ):
+        fig, ax = plt.subplots()
+        ax.set_aspect("auto")
+        ax.grid()
+
+        NUM_COLORS = len(data)
+        cm = plt.get_cmap("tab10")
+        if NUM_COLORS > 10:
+            cm = plt.get_cmap("tab20")
+        cy = cycler(color=[cm(i) for i in range(NUM_COLORS)])
+
+        # shift_prevs = shift_prevs[:, pos_class]
+        for method, shifts, _cy in zip(columns, data, cy):
+            ax.plot(
+                shift_prevs,
+                shifts,
+                label=method,
+                color=_cy["color"],
+                linestyle="-",
+                marker="o",
+                markersize=3,
+                zorder=2,
+            )
+            if counts is not None:
+                _col_idx = np.where(columns == method)[0]
+                count = counts[_col_idx].flatten()
+                for prev, shift, cnt in zip(shift_prevs, shifts, count):
+                    label = f"{cnt}"
+                    plt.annotate(
+                        label,
+                        (prev, shift),
+                        textcoords="offset points",
+                        xytext=(0, 10),
+                        ha="center",
+                        color=_cy["color"],
+                        fontsize=12.0,
+                    )
+
+        ax.set(xlabel=x_label, ylabel=y_label, title=title)
+
+        if legend:
+            ax.legend(loc="center left", bbox_to_anchor=(1, 0.5))
+
+        return fig
--- a/quacc/legacy/plot/plot.py
+++ b/quacc/legacy/plot/plot.py
@ -0,0 +1,197 @@
+from quacc.legacy.plot.base import BasePlot
+from quacc.legacy.plot.mpl import MplPlot
+from quacc.legacy.plot.plotly import PlotlyPlot
+
+__backend: BasePlot = MplPlot()
+
+
+def get_backend(name, theme=None):
+    match name:
+        case "matplotlib" | "mpl":
+            return MplPlot()
+        case "plotly":
+            return PlotlyPlot(theme=theme)
+        case _:
+            return MplPlot()
+
+
+def plot_delta(
+    base_prevs,
+    columns,
+    data,
+    *,
+    stdevs=None,
+    pos_class=1,
+    metric="acc",
+    name="default",
+    train_prev=None,
+    legend=True,
+    avg=None,
+    save_fig=False,
+    base_path=None,
+    backend=None,
+):
+    backend = __backend if backend is None else backend
+    _base_title = "delta_stdev" if stdevs is not None else "delta"
+    if train_prev is not None:
+        t_prev_pos = int(round(train_prev[pos_class] * 100))
+        title = f"{_base_title}_{name}_{t_prev_pos}_{metric}"
+    else:
+        title = f"{_base_title}_{name}_avg_{avg}_{metric}"
+
+    if avg is None or avg == "train":
+        x_label = "Test Prevalence"
+    else:
+        x_label = "Train Prevalence"
+    if metric == "acc":
+        y_label = "Prediction Error for Vanilla Accuracy"
+    elif metric == "f1":
+        y_label = "Prediction Error for F1"
+    else:
+        y_label = f"{metric} error"
+    fig = backend.plot_delta(
+        base_prevs,
+        columns,
+        data,
+        stdevs=stdevs,
+        pos_class=pos_class,
+        title=title,
+        x_label=x_label,
+        y_label=y_label,
+        legend=legend,
+    )
+
+    if save_fig:
+        output_path = backend.save_fig(fig, base_path, title)
+        return fig, output_path
+
+    return fig
+
+
+def plot_diagonal(
+    reference,
+    columns,
+    data,
+    *,
+    pos_class=1,
+    metric="acc",
+    name="default",
+    train_prev=None,
+    fixed_lim=False,
+    legend=True,
+    save_fig=False,
+    base_path=None,
+    backend=None,
+):
+    backend = __backend if backend is None else backend
+    if train_prev is not None:
+        t_prev_pos = int(round(train_prev[pos_class] * 100))
+        title = f"diagonal_{name}_{t_prev_pos}_{metric}"
+    else:
+        title = f"diagonal_{name}_{metric}"
+
+    if metric == "acc":
+        x_label = "True Vanilla Accuracy"
+        y_label = "Estimated Vanilla Accuracy"
+    else:
+        x_label = f"true {metric}"
+        y_label = f"estim. {metric}"
+    fig = backend.plot_diagonal(
+        reference,
+        columns,
+        data,
+        pos_class=pos_class,
+        title=title,
+        x_label=x_label,
+        y_label=y_label,
+        fixed_lim=fixed_lim,
+        legend=legend,
+    )
+
+    if save_fig:
+        output_path = backend.save_fig(fig, base_path, title)
+        return fig, output_path
+
+    return fig
+
+
+def plot_shift(
+    shift_prevs,
+    columns,
+    data,
+    *,
+    counts=None,
+    pos_class=1,
+    metric="acc",
+    name="default",
+    train_prev=None,
+    legend=True,
+    save_fig=False,
+    base_path=None,
+    backend=None,
+):
+    backend = __backend if backend is None else backend
+    if train_prev is not None:
+        t_prev_pos = int(round(train_prev[pos_class] * 100))
+        title = f"shift_{name}_{t_prev_pos}_{metric}"
+    else:
+        title = f"shift_{name}_avg_{metric}"
+
+    x_label = "Amount of Prior Probability Shift"
+    if metric == "acc":
+        y_label = "Prediction Error for Vanilla Accuracy"
+    elif metric == "f1":
+        y_label = "Prediction Error for F1"
+    else:
+        y_label = f"{metric} error"
+    fig = backend.plot_shift(
+        shift_prevs,
+        columns,
+        data,
+        counts=counts,
+        pos_class=pos_class,
+        title=title,
+        x_label=x_label,
+        y_label=y_label,
+        legend=legend,
+    )
+
+    if save_fig:
+        output_path = backend.save_fig(fig, base_path, title)
+        return fig, output_path
+
+    return fig
+
+
+def plot_fit_scores(
+    train_prevs,
+    scores,
+    *,
+    pos_class=1,
+    metric="acc",
+    name="default",
+    legend=True,
+    save_fig=False,
+    base_path=None,
+    backend=None,
+):
+    backend = __backend if backend is None else backend
+    title = f"fit_scores_{name}_avg_{metric}"
+
+    x_label = "train prev."
+    y_label = "position"
+    fig = backend.plot_fit_scores(
+        train_prevs,
+        scores,
+        pos_class=pos_class,
+        title=title,
+        x_label=x_label,
+        y_label=y_label,
+        legend=legend,
+    )
+
+    if save_fig:
+        output_path = backend.save_fig(fig, base_path, title)
+        return fig, output_path
+
+    return fig
--- a/quacc/legacy/plot/plotly.py
+++ b/quacc/legacy/plot/plotly.py
@ -0,0 +1,330 @@
+from collections import defaultdict
+from pathlib import Path
+
+import numpy as np
+import plotly
+import plotly.graph_objects as go
+
+from quacc.legacy.evaluation.estimators import CE, _renames
+from quacc.legacy.plot.base import BasePlot
+
+
+class PlotCfg:
+    def __init__(self, mode, lwidth, font=None, legend=None, template="seaborn"):
+        self.mode = mode
+        self.lwidth = lwidth
+        self.legend = {} if legend is None else legend
+        self.font = {} if font is None else font
+        self.template = template
+
+
+web_cfg = PlotCfg("lines+markers", 2)
+png_cfg_old = PlotCfg(
+    "lines",
+    5,
+    legend=dict(
+        orientation="h",
+        yanchor="bottom",
+        xanchor="right",
+        y=1.02,
+        x=1,
+        font=dict(size=24),
+    ),
+    font=dict(size=24),
+    # template="ggplot2",
+)
+png_cfg = PlotCfg(
+    "lines",
+    5,
+    legend=dict(
+        font=dict(
+            family="DejaVu Sans",
+            size=24,
+        ),
+    ),
+    font=dict(size=24),
+    # template="ggplot2",
+)
+
+_cfg = png_cfg
+
+
+class PlotlyPlot(BasePlot):
+    __themes = defaultdict(
+        lambda: {
+            "template": _cfg.template,
+        }
+    )
+    __themes = __themes | {
+        "dark": {
+            "template": "plotly_dark",
+        },
+    }
+
+    def __init__(self, theme=None):
+        self.theme = PlotlyPlot.__themes[theme]
+        self.rename = True
+
+    def hex_to_rgb(self, hex: str, t: float | None = None):
+        hex = hex.lstrip("#")
+        rgb = [int(hex[i : i + 2], 16) for i in [0, 2, 4]]
+        if t is not None:
+            rgb.append(t)
+        return f"{'rgb' if t is None else 'rgba'}{str(tuple(rgb))}"
+
+    def get_colors(self, num):
+        match num:
+            case v if v > 10:
+                __colors = plotly.colors.qualitative.Light24
+            case _:
+                __colors = plotly.colors.qualitative.G10
+
+        def __generator(cs):
+            while True:
+                for c in cs:
+                    yield c
+
+        return __generator(__colors)
+
+    def update_layout(self, fig, title, x_label, y_label):
+        fig.update_layout(
+            # title=title,
+            xaxis_title=x_label,
+            yaxis_title=y_label,
+            template=self.theme["template"],
+            font=_cfg.font,
+            legend=_cfg.legend,
+        )
+
+    def save_fig(self, fig, base_path, title) -> Path:
+        return None
+
+    def rename_plots(
+        self,
+        columns,
+    ):
+        if not self.rename:
+            return columns
+
+        new_columns = []
+        for c in columns:
+            nc = c
+            for old, new in _renames.items():
+                if c.startswith(old):
+                    nc = new + c[len(old) :]
+
+            new_columns.append(nc)
+
+        return np.array(new_columns)
+
+    def plot_delta(
+        self,
+        base_prevs,
+        columns,
+        data,
+        *,
+        stdevs=None,
+        pos_class=1,
+        title="default",
+        x_label="prevs.",
+        y_label="error",
+        legend=True,
+    ) -> go.Figure:
+        fig = go.Figure()
+        if isinstance(base_prevs[0], float):
+            base_prevs = np.around([(1 - bp, bp) for bp in base_prevs], decimals=4)
+        x = [str(tuple(bp)) for bp in base_prevs]
+        named_data = {c: d for c, d in zip(columns, data)}
+        r_columns = {c: r for c, r in zip(columns, self.rename_plots(columns))}
+        line_colors = self.get_colors(len(columns))
+        # for name, delta in zip(columns, data):
+        columns = np.array(CE.name.sort(columns))
+        for name in columns:
+            delta = named_data[name]
+            r_name = r_columns[name]
+            color = next(line_colors)
+            _line = [
+                go.Scatter(
+                    x=x,
+                    y=delta,
+                    mode=_cfg.mode,
+                    name=r_name,
+                    line=dict(color=self.hex_to_rgb(color), width=_cfg.lwidth),
+                    hovertemplate="prev.: %{x}<br>error: %{y:,.4f}",
+                )
+            ]
+            _error = []
+            if stdevs is not None:
+                _col_idx = np.where(columns == name)[0]
+                stdev = stdevs[_col_idx].flatten()
+                _error = [
+                    go.Scatter(
+                        x=np.concatenate([x, x[::-1]]),
+                        y=np.concatenate([delta - stdev, (delta + stdev)[::-1]]),
+                        name=int(_col_idx[0]),
+                        fill="toself",
+                        fillcolor=self.hex_to_rgb(color, t=0.2),
+                        line=dict(color="rgba(255, 255, 255, 0)"),
+                        hoverinfo="skip",
+                        showlegend=False,
+                    )
+                ]
+            fig.add_traces(_line + _error)
+
+        self.update_layout(fig, title, x_label, y_label)
+        return fig
+
+    def plot_diagonal(
+        self,
+        reference,
+        columns,
+        data,
+        *,
+        pos_class=1,
+        title="default",
+        x_label="true",
+        y_label="estim.",
+        fixed_lim=False,
+        legend=True,
+    ) -> go.Figure:
+        fig = go.Figure()
+        x = reference
+        line_colors = self.get_colors(len(columns))
+
+        if fixed_lim:
+            _lims = np.array([[0.0, 1.0], [0.0, 1.0]])
+        else:
+            _edges = (
+                np.min([np.min(x), np.min(data)]),
+                np.max([np.max(x), np.max(data)]),
+            )
+            _lims = np.array([[_edges[0], _edges[1]], [_edges[0], _edges[1]]])
+
+        named_data = {c: d for c, d in zip(columns, data)}
+        r_columns = {c: r for c, r in zip(columns, self.rename_plots(columns))}
+        columns = np.array(CE.name.sort(columns))
+        for name in columns:
+            val = named_data[name]
+            r_name = r_columns[name]
+            color = next(line_colors)
+            slope, interc = np.polyfit(x, val, 1)
+            # y_lr = np.array([slope * _x + interc for _x in _lims[0]])
+            fig.add_traces(
+                [
+                    go.Scatter(
+                        x=x,
+                        y=val,
+                        customdata=np.stack((val - x,), axis=-1),
+                        mode="markers",
+                        name=r_name,
+                        marker=dict(color=self.hex_to_rgb(color, t=0.5)),
+                        hovertemplate="true acc: %{x:,.4f}<br>estim. acc: %{y:,.4f}<br>acc err.: %{customdata[0]:,.4f}",
+                        # showlegend=False,
+                    ),
+                    # go.Scatter(
+                    #     x=[x[-1]],
+                    #     y=[val[-1]],
+                    #     mode="markers",
+                    #     marker=dict(color=self.hex_to_rgb(color), size=8),
+                    #     name=r_name,
+                    # ),
+                    # go.Scatter(
+                    #     x=_lims[0],
+                    #     y=y_lr,
+                    #     mode="lines",
+                    #     name=name,
+                    #     line=dict(color=self.hex_to_rgb(color), width=3),
+                    #     showlegend=False,
+                    # ),
+                ]
+            )
+        fig.add_trace(
+            go.Scatter(
+                x=_lims[0],
+                y=_lims[1],
+                mode="lines",
+                name="reference",
+                showlegend=False,
+                line=dict(color=self.hex_to_rgb("#000000"), dash="dash"),
+            )
+        )
+
+        self.update_layout(fig, title, x_label, y_label)
+        fig.update_layout(
+            autosize=False,
+            width=1300,
+            height=1000,
+            yaxis_scaleanchor="x",
+            yaxis_scaleratio=1.0,
+            yaxis_range=[-0.1, 1.1],
+        )
+        return fig
+
+    def plot_shift(
+        self,
+        shift_prevs,
+        columns,
+        data,
+        *,
+        counts=None,
+        pos_class=1,
+        title="default",
+        x_label="true",
+        y_label="estim.",
+        legend=True,
+    ) -> go.Figure:
+        fig = go.Figure()
+        # x = shift_prevs[:, pos_class]
+        x = shift_prevs
+        line_colors = self.get_colors(len(columns))
+        named_data = {c: d for c, d in zip(columns, data)}
+        r_columns = {c: r for c, r in zip(columns, self.rename_plots(columns))}
+        columns = np.array(CE.name.sort(columns))
+        for name in columns:
+            delta = named_data[name]
+            r_name = r_columns[name]
+            col_idx = (columns == name).nonzero()[0][0]
+            color = next(line_colors)
+            fig.add_trace(
+                go.Scatter(
+                    x=x,
+                    y=delta,
+                    customdata=np.stack((counts[col_idx],), axis=-1),
+                    mode=_cfg.mode,
+                    name=r_name,
+                    line=dict(color=self.hex_to_rgb(color), width=_cfg.lwidth),
+                    hovertemplate="shift: %{x}<br>error: %{y}"
+                    + "<br>count: %{customdata[0]}"
+                    if counts is not None
+                    else "",
+                )
+            )
+
+        self.update_layout(fig, title, x_label, y_label)
+        return fig
+
+    def plot_fit_scores(
+        self,
+        train_prevs,
+        scores,
+        *,
+        pos_class=1,
+        title="default",
+        x_label="prev.",
+        y_label="position",
+        legend=True,
+    ) -> go.Figure:
+        fig = go.Figure()
+        # x = train_prevs
+        x = [str(tuple(bp)) for bp in train_prevs]
+        fig.add_trace(
+            go.Scatter(
+                x=x,
+                y=scores,
+                mode="lines+markers",
+                showlegend=False,
+            ),
+        )
+
+        self.update_layout(fig, title, x_label, y_label)
+        return fig