El objetivo del proyecto SILICE
El proyecto Silice se encarga de mantener una base de datos sobre la producción científica nacional, lo más actualizada y correctamente posible.
Para ello utilizamos bases de datos Open Access y estas no aseguran la integridad sus datos. Es cierto que abarcan mucho y guardan gran cantidad de información, pero hay que encontrar maneras de depurarla y de esa manera dar más valor al proyecto.
La semana pasada, tras realizar una ingesta de autores y autoras que trabajan actualmente en instituciones españolas, descubrimoun problema.
Detectando inconsistencias en la ingesta
La base de datos nos había dado un error al intentar añadir a un mismo identificador de OpenAlex dos ORCIDs diferentes. En verdad ese fue un error de nuestro diseño inicial que no habíamos cambiado a pesar de saber que OpenAlex podía “esconder” tras un mismo identificador único suyo a más de una persona. Este es de hecho uno de los errores más comunes de los que hemos identificado. Hay perfiles que son sumideros de autorías y parecen haber publicado mucho más de lo que en realidad han hecho. Por tanto, en estos casos, podríamos ver más de un ORCID, pero si nuestra fuente es OpenAlex y ya supiese que son 2 personas diferentes, las mostraría por separado. La solución que podemos aportar es comparar con más bases de datos e intentar dar una valoración de cuanta integridad creemos que hay en esa información. Ya crearé un post aparte.
Lo siguiente que pensamos es que una persona hubiese creado dos cuentas en ORCID y OpenAlex las hubiese agrupado, haciendo un gran trabajo de identificación. Posiblemente esto lo hace ya OpenAlex, pero suponemos, ya que no hemos encontrado un buen ejemplo, que tomará solo uno de los ORCIDs, ya que el campo ORCID que devuelve cada perfil es un valor único, no un vector. Por lo que tampoco podía ser este el problema.
Una sorpresa entre ingestas
Por último, dimos con el error, que abre el gran elefante en la habitación del mantenimiento de SILICE. Al haber pasado un día del primer intento de ingesta, entre ambos intentos OpenAlex había creado un nuevo perfil desdoblando, correctamente, a dos autoras cuyos nombres eran similares, cuyo campo de investigación era el mismo y una trabajaba en Portugal mientras que la otra en España. Eran dos perfiles con una sola publicación lo que su impacto en las métricas era muy bajo, pero su descubrimiento nos ayudará a mejorar la ingesta y a darnos cuenta de que toda información anterior podría cambiar de un día para otro. Debido a los límites diarios de actualización, una actualización entera con toda la info que llevamos nos cuesta 60 días, aunque en 1 podemos revisar los datos básicos de las publicaciones o de las autorías.
Aprendizaje continuo en movimiento
Por lo visto, también puede cambiar la estructura de los datos, dando un problema mayor todavía, que tendremos que empezar a plantearnos.
La investigación de esta documentación apunta a ser muy interesante y con retos apasionantes en los que esperemos poder aplicar todo lo que vayamos aprendiendo en la formación del programa Momentum. Son este tipo de necesidades lo que siento que ayuda a crecer y solidificar todo lo aprendido, que de otra manera se pierde al no usarlo.