Taxonomías, Tesauros y Ontologías: Formatos y Aplicación en Medios

Introducción: semántica documental

Un conjunto de palabras clave, más algunas reglas de desarrollo para representar el contenido de noticias, por simples que sean estas reglas (por ejemplo, usar plural en lugar de singular, o sustantivos en lugar de verbos), constituyen un lenguaje documental.

Las palabras clave elegidas para representar noticias (o cualquier clase de documentos) se denominan en el argot profesional términos de indización, porque con ellos se pueden crear índices, impresos o digitalizados, que facilitan el acceso a la información. También se denominan descriptores porque, efectivamente, describen cosas (libros, vídeos, fotografías, noticias, etc.)

Por tanto, en resumen:

términos del lenguaje natural para indizar documentos + reglas de uso = lenguaje documental

¿Para qué querríamos usar palabras clave o descriptores en el contexto de la web? En el ámbito más tradicional de las bibliotecas y de las bases de datos académicas está claro (¿lo está, no?); pero en una web y en un medio de comunicación quizás no tanto.

En el caso de un medio de comunicación se supone que queremos encontrar las noticias de un mismo tema usando ciertas palabras clave (o combinación de palabras clave) sea cuando sea que queramos recuperar esa información.

Por ejemplo, puede que, en el futuro, digamos dentro de unos meses o unos años, un periodista necesite encontrar las noticias que se están publicando estos días sobre cualquier tema. Usar las mismas palabras clave o descriptores para caracterizar los mismos temas ayudará a encontrar esas noticias de manera precisa y sin ruido.

Además, en la medida que los medios de comunicación han pasado a ser cibermedios, se necesitan también palabras clave para que los diferentes sistemas de navegación del sitio web proporcione el mejor acceso posible a noticias de una misma temática.

Por último, las palabras clave o los descriptores servirán para mejorar la precisión de las operaciones de recuperación de información en la hemeroteca digital del medio.

¿Cómo podemos representar conjuntos de noticias de forma consistente? Solamente los nombres de países ya son un problema, no digamos los conceptos e ideas de los que disponemos de numerosos sinónimos y formas alternativas de expresarlos. La respuesta es: usando palabras clave “normalizadas”.

Aquí podemos dar un pequeño paso en el uso de la terminología (una tabla más adelante, nos ayudará a consolidar ideas): una palabra clave normalizada se denomina descriptor o también término de indización preferente.

Las que se pueden obtener del análisis automático de la noticia forman un primer aporte de palabras clave; pero necesitamos términos normalizados para expresar la síntesis de la noticia en concreto y, además, el contenido de las imágenes y los vídeos que las acompañan.

Para esto necesitamos términos previamente acordados para representar siempre igual los mismos conceptos con la ayuda de descriptores. El instrumento que facilita el control terminológico mediante el uso de descriptores son los lenguajes documentales (también llamados, por este motivo, lenguajes controlados).

La cuestión es que existen lenguajes documentales (LD a partir de ahora) muy diferentes de acuerdo a sus funciones y a su complejidad, como veremos a continuación.

El problema es que debido a la liberalidad con la que se usan sus denominaciones respectivas suele haber una considerable confusión. Para intentar clarificarlos, los situaremos en una especie de continuo formado por estos cuatro LD:

Lista de términos

 

Taxonomías (o Clasificaciones)

 

Tesauros

 

Ontologías

 

En lo que sigue intentamos aportar una clarificación de los mismos desde el punto de vista de la Semántica Documental, una especialidad multidisciplinar que combina aportaciones de la Documentación, la Lingüística Aplicada y la Lógica formal. Después, descenderemos a tierra para intentar relacionarlos con sus posibles aplicaciones a un sitio intensivo en contenidos, como es el caso de un Medio de Comunicación o Cibermedio.

Por el momento, señalemos aquello que todos los LD tienen en común:

Consisten en conjuntos previamente determinados de términos (palabras clave), aunque estos conjuntos pueden sufrir modificaciones (altas, bajas y cambios en su morfología).

 

Dado el uso, se denominan genéricamente, términos de indización.En algunos LD los términos de indización preferidos (en lugar de otros sinónimos) se denominan descriptores.

 

Contemplan ciertas reglas sobre la forma preferida de los términos, las relaciones entre ellos y su modo de aplicación.

 

Se utilizan con fines de representación y recuperación de información, por tanto, se utilizan para caracterizar:

 

Por tanto, pueden tener un papel crucial en la visibilidad y la buscabilidad de la noticia.

 

a) el contenido de las distintas noticias del sitio., en la operación denominada indización;

 

b) las necesidades de información de los usuarios, en la operación denominada interrogación;

 

c) las opciones disponibles en los diferentes menús del sitio, en la operación denominada navegación.

Taxonomías, Tesauros y Ontologías: Formatos y Aplicación en Medios

Anuncios

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s