15 lines
1.2 KiB
Plaintext
15 lines
1.2 KiB
Plaintext
Por ahora tengo dos sets de experimentos:
|
|
a) unos mejores que los de Ruder donde hay un layer más de clasificación (o sea, está phi(x) y luego dos layers)
|
|
b) unos "simplified" que son peores que los de Ruder porque he quitado ese layer adicional
|
|
También vi que se mejoraba con l2(phi(x)) así que lo he dejado así
|
|
Ahora voy a probar a añadir ese layer adicional como último step in phi(x) <-- ejecutando
|
|
Luego quiero probar a imponer la regularización en todos los layers antes de la clasificación...
|
|
|
|
Lo de la l2 es un requisito de supervised contrastive learning (SCL)
|
|
El problema para aplicar SCL es entender qué quiere decir el "crop" en texto, y en particular en AA. Podría simplemente
|
|
ser equivalente a "fragmento", es decir, que un tipo de inductive bias es que un fragmento de un texto de un autor
|
|
debe tener una representación similar a otro fragmento del mismo texto. Hay que entender bien cómo generarlos,
|
|
de forma que los fragmentos sean caracterizantes (esto quiere decir probablemente imponer una cierta extensión).
|
|
También hay que entender cómo tratar los solapamientos entre fragmentos.
|
|
|
|
Una idea de título sería: "AA is to Classification as SCL is to SAV", or AA = Classif - SCL + SAV |