QuaPy/Ordinal/partition_dataset_by_shift.py

import numpy as np
import quapy as qp
from evaluation import nmd
from Ordinal.utils import load_samples_folder, load_single_sample_pkl
from quapy.data import LabelledCollection
import pickle
import os
from os.path import join
from tqdm import tqdm


"""
This scripts generates a partition of a dataset in terms of "shift".
The partition is only carried out by generating index vectors. 
"""


def partition_by_drift(split, training_prevalence):
    assert split in ['dev', 'test'], 'invalid split name'
    total=1000 if split=='dev' else 5000
    drifts = []
    folderpath = join(datapath, domain, 'app', f'{split}_samples')
    for sample in tqdm(load_samples_folder(folderpath, load_fn=load_single_sample_pkl), total=total):
        drifts.append(nmd(training_prevalence, sample.prevalence()))
    drifts = np.asarray(drifts)
    order = np.argsort(drifts)
    nD = len(order)
    low_drift, mid_drift, high_drift = order[:nD // 3], order[nD // 3:2 * nD // 3], order[2 * nD // 3:]
    all_drift = np.arange(nD)
    np.save(join(datapath, domain, 'app', f'lowdrift.{split}.id.npy'), low_drift)
    np.save(join(datapath, domain, 'app', f'middrift.{split}.id.npy'), mid_drift)
    np.save(join(datapath, domain, 'app', f'highdrift.{split}.id.npy'), high_drift)
    np.save(join(datapath, domain, 'app', f'alldrift.{split}.id.npy'), all_drift)
    lows = drifts[low_drift]
    mids = drifts[mid_drift]
    highs = drifts[high_drift]
    all = drifts[all_drift]
    print(f'low drift: interval [{lows.min():.4f}, {lows.max():.4f}] mean: {lows.mean():.4f}')
    print(f'mid drift: interval [{mids.min():.4f}, {mids.max():.4f}] mean: {mids.mean():.4f}')
    print(f'high drift: interval [{highs.min():.4f}, {highs.max():.4f}] mean: {highs.mean():.4f}')
    print(f'all drift: interval [{all.min():.4f}, {all.max():.4f}] mean: {all.mean():.4f}')


domain = 'Books-roberta-base-finetuned-pkl/checkpoint-1188-posteriors'
datapath = './data'

training = pickle.load(open(join(datapath,domain,'training_data.pkl'), 'rb'))

partition_by_drift('dev', training.prevalence())
partition_by_drift('test', training.prevalence())
regression-based adjustment using the validation set; seems to be working 2022-03-08 18:24:30 +01:00			`import numpy as np`
			`import quapy as qp`
generating features from RoBERTa, testing them on Amazons data 2022-03-16 19:12:45 +01:00			`from evaluation import nmd`
			`from Ordinal.utils import load_samples_folder, load_single_sample_pkl`
regression-based adjustment using the validation set; seems to be working 2022-03-08 18:24:30 +01:00			`from quapy.data import LabelledCollection`
			`import pickle`
			`import os`
			`from os.path import join`
			`from tqdm import tqdm`


scripts using QuaPy 2022-03-31 18:46:56 +02:00			`"""`
			`This scripts generates a partition of a dataset in terms of "shift".`
			`The partition is only carried out by generating index vectors.`
			`"""`


regression-based adjustment using the validation set; seems to be working 2022-03-08 18:24:30 +01:00			`def partition_by_drift(split, training_prevalence):`
			`assert split in ['dev', 'test'], 'invalid split name'`
			`total=1000 if split=='dev' else 5000`
			`drifts = []`
generating features from RoBERTa, testing them on Amazons data 2022-03-16 19:12:45 +01:00			`folderpath = join(datapath, domain, 'app', f'{split}_samples')`
			`for sample in tqdm(load_samples_folder(folderpath, load_fn=load_single_sample_pkl), total=total):`
regression-based adjustment using the validation set; seems to be working 2022-03-08 18:24:30 +01:00			`drifts.append(nmd(training_prevalence, sample.prevalence()))`
			`drifts = np.asarray(drifts)`
			`order = np.argsort(drifts)`
			`nD = len(order)`
			`low_drift, mid_drift, high_drift = order[:nD // 3], order[nD // 3:2 * nD // 3], order[2 * nD // 3:]`
adding sample_weight to ordinal-aware classifiers 2022-03-10 18:28:49 +01:00			`all_drift = np.arange(nD)`
regression-based adjustment using the validation set; seems to be working 2022-03-08 18:24:30 +01:00			`np.save(join(datapath, domain, 'app', f'lowdrift.{split}.id.npy'), low_drift)`
			`np.save(join(datapath, domain, 'app', f'middrift.{split}.id.npy'), mid_drift)`
			`np.save(join(datapath, domain, 'app', f'highdrift.{split}.id.npy'), high_drift)`
adding sample_weight to ordinal-aware classifiers 2022-03-10 18:28:49 +01:00			`np.save(join(datapath, domain, 'app', f'alldrift.{split}.id.npy'), all_drift)`
regression-based adjustment using the validation set; seems to be working 2022-03-08 18:24:30 +01:00			`lows = drifts[low_drift]`
			`mids = drifts[mid_drift]`
			`highs = drifts[high_drift]`
adding sample_weight to ordinal-aware classifiers 2022-03-10 18:28:49 +01:00			`all = drifts[all_drift]`
regression-based adjustment using the validation set; seems to be working 2022-03-08 18:24:30 +01:00			`print(f'low drift: interval [{lows.min():.4f}, {lows.max():.4f}] mean: {lows.mean():.4f}')`
			`print(f'mid drift: interval [{mids.min():.4f}, {mids.max():.4f}] mean: {mids.mean():.4f}')`
			`print(f'high drift: interval [{highs.min():.4f}, {highs.max():.4f}] mean: {highs.mean():.4f}')`
adding sample_weight to ordinal-aware classifiers 2022-03-10 18:28:49 +01:00			`print(f'all drift: interval [{all.min():.4f}, {all.max():.4f}] mean: {all.mean():.4f}')`
regression-based adjustment using the validation set; seems to be working 2022-03-08 18:24:30 +01:00

preparing fine tunning experiments with roberta 2022-03-24 17:29:54 +01:00			`domain = 'Books-roberta-base-finetuned-pkl/checkpoint-1188-posteriors'`
regression-based adjustment using the validation set; seems to be working 2022-03-08 18:24:30 +01:00			`datapath = './data'`

			`training = pickle.load(open(join(datapath,domain,'training_data.pkl'), 'rb'))`

			`partition_by_drift('dev', training.prevalence())`
			`partition_by_drift('test', training.prevalence())`