Lemon8-XML: Etiquetar la información científica para facilitar su acceso por Internet

Lemon8-XML
Los artículos científicos, en su mayor parte, aparecen en Internet en formato PDF en las revistas electrónicas correspondientes. Aunque los datos de título, autoría, publicación, dirección, filiación y abstract son datos rastreables a través de las bases de datos y de algunos buscadores académicos de Internet, no lo son así los contenidos en PDF (si, los metadatos del PDF pero siguen siendo los mismos elementos). Sólo podremos buscar dentro del contenido del articulo una vez que abrimos el PDF, lo visualizamos físicamente y utilizamos la herramienta de búsqueda de Acrobat Reader, Foxit o similares para el texto.

El que un artículo esté en PDF es un obstáculo, sin duda. La información científica en internet debería ser xhtml, estar bien estructura y bien etiquetada. El paso de word o de open office odt a xhtml es algo que trae a los editores de revistas científicas algo desesperados y la mayoría de los autores ni se preocupan por ello.

Lemon8 XML una herramienta del portal PKP (Public Knowledge Project) para la promoción e implementación de Open Journal Systems nos proporciona una excelente ayuda para conseguir la dichosa conversión.

¿Por qué tanta complicación? : Pues porque toda la información de un artículo científico debe ser de interés para los investigadores. Estos documentos, incluso los más elementales, tienen una estructura básica que se debe respetar y que contiene al menos estos elementos: autor, título, resumen, palabras clave, contenido principal del artículo, notas y citas. Los elementos pueden ampliarse y hacerse más complejos incluyendo índices de contenido, filiación, direcciones, gráficos, tablas, fórmulas, fechas, métodos, resultados, estádísticas, etc... A ello añadimos determinados códigos bibliográficos o de internet: ISSN, ISBN; DOI, URLs etc.

Pero cuando se busca la información se hace a través de robots de búsqueda. Si la información que rastrean no está marcada de tal manera que se diferencien cada uno de los elementos que componen un artículo científico, los robots (máquinas ciegas que se limitan a leer códigos de información) no distinguirán autores de palabras claven ni sabrán que un título tiene más importancia que una párrafo cualquiera, ni distinguiran lo que son citas o lo que son resultados científicos.

Por otra parte, segun W3C, los documentos estructurados y de calidad en Internet deben seguir las pautas del etiquetado XML y cumplir el standard DTD, descripción de la estructura XML del documento. Así que es doblemente necesario cumplir estas normas y el formato html con la conversión que nos proporciona MS Word o similares no es válido.

¿Qué formato, qué estructura, qué etiquetado y que descripción DTD debe tener un artículo científico en formato electrónico? ¿Hay algún modelo para seguir? Desde la National Library of Medicine se nos ofrece un modelo, el NLM Journal Publishing DTD, que actualmente pasa por ser el más completo, y se utiliza el mayoría de los procesos de edición de revistas científicas electrónicas para convertir los textos remitidos por los autores a formatos más estructurados. Es decir a formatos XML o XHTML (un html estucturado con XML)

Hasta hace poco las herramientas más conocidas eran Microsoft Word Authoring Add-In para MSOffice, eXtyles NLM proporcionado por Inera e ICE: The Integrated Content Environment . Todas ellas son herramientas algo complicadas de instalar y de entender para un investigador que sabe de lo suyo y no quiere complicaciones informáticas. Todas presentan alguna incompatibilidad, e incluso alguna es de pago.

Los autores y los editores de textos científicos deberían poder hacer ellos mismos esta conversión desde su ordenador sin mayor complicación, de manera gratuita, sin necesidad de tener que saber ni xml, ni html, ni dtd. Simplemente sabiendo hacer un buen artículo científico (!uf, ya es bastante difícil!) con sus partes y sus elementos, incorporando las citas con los gestores bibliográficos académicos que utilicen. Luego deben tener una buena herramienta de conversión en línea y acabado el problema.

El 27 de febero pasado la salida de Lemon8-XML versión 1.0 definitiva y no beta proporciona una herramienta espléndida 100% de libre acceso, gratuita, y Open Source software. Se puede ver toda la información, demos, descargas, manuales e intrucciones en: Lemon8 xml

0 comentarios: