Por ahora tengo dos sets de experimentos:
a) unos mejores que los de Ruder donde hay un layer más de clasificación (o sea, está phi(x) y luego dos layers)
b) unos "simplified" que son peores que los de Ruder porque he quitado ese layer adicional
También vi que se mejoraba con l2(phi(x)) así que lo he dejado así
Ahora voy a probar a añadir ese layer adicional como último step in phi(x) <-- ejecutando
Luego quiero probar a imponer la regularización en todos los layers antes de la clasificación...

Lo de la l2 es un requisito de supervised contrastive learning (SCL)
El problema para aplicar SCL es entender qué quiere decir el "crop" en texto, y en particular en AA. Podría simplemente
    ser equivalente a "fragmento", es decir, que un tipo de inductive bias es que un fragmento de un texto de un autor
    debe tener una representación similar a otro fragmento del mismo texto. Hay que entender bien cómo generarlos,
    de forma que los fragmentos sean caracterizantes (esto quiere decir probablemente imponer una cierta extensión).
    También hay que entender cómo tratar los solapamientos entre fragmentos.

Una idea de título sería: "AA is to Classification as SCL is to SAV", or AA = Classif - SCL + SAV