QuaPy/Ordinal/utils.py

import numpy as np
from glob import glob
from json import load
import os
from os.path import join
import pickle
import pandas as pd
import csv
import datasets
from datasets import Dataset
import quapy as qp
from quapy.data import LabelledCollection


def load_simple_sample_npytxt(parentdir, filename, classes=None):
    samplepath = join(parentdir, filename+'.txt')
    yX = np.loadtxt(samplepath)
    X = yX[:,1:]
    y = yX[:,0].astype(np.int32)
    return LabelledCollection(instances=X, labels=y, classes_=classes)


def load_simple_sample_raw(parentdir, filename, classes=None):
    samplepath = join(parentdir, filename+'.txt')
    return LabelledCollection.load(samplepath, loader_func=qp.data.reader.from_text, classes=classes)


def load_single_sample_as_csv(parentdir, filename):
    samplepath = join(parentdir, filename+'.txt')
    df = pd.read_csv(samplepath, sep='\t', names=['labels', 'review'], quoting=csv.QUOTE_NONE)
    labels = df.pop('labels').to_frame()

    features = datasets.Features({'review': datasets.Value('string')})
    sample = Dataset.from_pandas(df=df, features=features)

    return sample, labels


def load_single_sample_pkl(parentdir, filename):
    return pickle.load(open(join(parentdir, filename+'.pkl'), 'rb'))


# def load_samples_npytxt(path_dir, filter=None, classes=None):
#     return load_samples_folder(path_dir, filter, load_fn=load_simple_sample_npytxt)


# def load_samples_raw(path_dir, filter=None, classes=None):
#     return load_samples_folder(path_dir, filter, load_fn=load_simple_sample_raw, load_fn_kwargs={'classes': classes})


# def load_samples_as_csv(path_dir, filter=None):
#     return load_samples_folder(path_dir, filter, load_fn=load_single_sample_as_csv)


# def load_samples_pkl(path_dir, filter=None):
#     return load_samples_folder(path_dir, filter, load_fn=load_single_sample_pkl)


def load_samples_folder(path_dir, filter=None, load_fn=None, **load_fn_kwargs):
    nsamples = len(glob(join(path_dir, f'*')))
    for id in range(nsamples):
        if (filter is None) or id in filter:
            yield load_fn(path_dir, f'{id}', **load_fn_kwargs)
generating features from RoBERTa, testing them on Amazons data 2022-03-16 19:12:45 +01:00			`import numpy as np`
first experiments 2022-03-03 18:33:27 +01:00			`from glob import glob`
generating features from RoBERTa, testing them on Amazons data 2022-03-16 19:12:45 +01:00			`from json import load`
first experiments 2022-03-03 18:33:27 +01:00			`import os`
			`from os.path import join`
trying ordinal classification 2022-03-08 16:27:41 +01:00			`import pickle`
generating features from RoBERTa, testing them on Amazons data 2022-03-16 19:12:45 +01:00			`import pandas as pd`
			`import csv`
			`import datasets`
			`from datasets import Dataset`
			`import quapy as qp`
			`from quapy.data import LabelledCollection`
first experiments 2022-03-03 18:33:27 +01:00


generating features from RoBERTa, testing them on Amazons data 2022-03-16 19:12:45 +01:00			`def load_simple_sample_npytxt(parentdir, filename, classes=None):`
			`samplepath = join(parentdir, filename+'.txt')`
			`yX = np.loadtxt(samplepath)`
			`X = yX[:,1:]`
			`y = yX[:,0].astype(np.int32)`
			`return LabelledCollection(instances=X, labels=y, classes_=classes)`
first experiments 2022-03-03 18:33:27 +01:00
generating BERT outputs for textual documents 2022-03-15 14:01:40 +01:00
generating features from RoBERTa, testing them on Amazons data 2022-03-16 19:12:45 +01:00			`def load_simple_sample_raw(parentdir, filename, classes=None):`
			`samplepath = join(parentdir, filename+'.txt')`
			`return LabelledCollection.load(samplepath, loader_func=qp.data.reader.from_text, classes=classes)`


			`def load_single_sample_as_csv(parentdir, filename):`
			`samplepath = join(parentdir, filename+'.txt')`
			`df = pd.read_csv(samplepath, sep='\t', names=['labels', 'review'], quoting=csv.QUOTE_NONE)`
			`labels = df.pop('labels').to_frame()`

			`features = datasets.Features({'review': datasets.Value('string')})`
			`sample = Dataset.from_pandas(df=df, features=features)`

			`return sample, labels`
generating BERT outputs for textual documents 2022-03-15 14:01:40 +01:00

generating features from RoBERTa, testing them on Amazons data 2022-03-16 19:12:45 +01:00			`def load_single_sample_pkl(parentdir, filename):`
			`return pickle.load(open(join(parentdir, filename+'.pkl'), 'rb'))`
generating BERT outputs for textual documents 2022-03-15 14:01:40 +01:00

generating features from RoBERTa, testing them on Amazons data 2022-03-16 19:12:45 +01:00			`# def load_samples_npytxt(path_dir, filter=None, classes=None):`
			`# return load_samples_folder(path_dir, filter, load_fn=load_simple_sample_npytxt)`


			`# def load_samples_raw(path_dir, filter=None, classes=None):`
			`# return load_samples_folder(path_dir, filter, load_fn=load_simple_sample_raw, load_fn_kwargs={'classes': classes})`


			`# def load_samples_as_csv(path_dir, filter=None):`
			`# return load_samples_folder(path_dir, filter, load_fn=load_single_sample_as_csv)`


			`# def load_samples_pkl(path_dir, filter=None):`
			`# return load_samples_folder(path_dir, filter, load_fn=load_single_sample_pkl)`


			`def load_samples_folder(path_dir, filter=None, load_fn=None, **load_fn_kwargs):`
			`nsamples = len(glob(join(path_dir, f'*')))`
trying ordinal classification 2022-03-08 16:27:41 +01:00			`for id in range(nsamples):`
table generation 2022-03-10 13:32:53 +01:00			`if (filter is None) or id in filter:`
generating features from RoBERTa, testing them on Amazons data 2022-03-16 19:12:45 +01:00			`yield load_fn(path_dir, f'{id}', **load_fn_kwargs)`