Documentación y fuentes informativas. Curso 2001/2002

 

Tema 5: Análisis documental de la información impresa

  • Concepto de análisis documental
  • Los lenguajes documentales
  • Los problemas de la representación por medio de palabras claves

Concepto de análisis documental

El análisis documental se define como el proceso de lectura, síntesis y representación de un texto. En el caso de los textos periodísticos el análisis documental se realizará aplicando a los textos a analizar el esquema de Laswell, las 5W's.

El resultado del análisis documental, además de la ficha catalográfica, será un conjunto de palabras que representan el contenido del texto de un documento. Estas palabras representativas del texto son las palabras claves o descriptores por los que un usuario podrá más tarde recuperar ese documento. Cuando las palabras que representan el documento son extraídas del lenguaje natural, sin ningún tipo de restricciones, o de una lista de palabras sin relaciones semánticas entre ellas, se habla de palabras claves. Cuando las palabras que representan a un texto se escojen de una lista cerrada de palabras claves pertenecientes a un tesauro, palabras que mantienen una relación semántica entre ellas, se habla de descriptores.


Los lenguajes documentales

Los lenguajes documentales son conjuntos normalizados y normativos de términos relacionados de forma semántica y que se utilizan para optimizar el proceso de recuperación de información reduciendo la incertidumbre, la dificultad de predicción, entre las palabras que elije un analista para representar un texto y las que elije un usuario para recuperarlo.

Tipos de lenguajes documentales

Lenguaje libre
Aquellos que codifican mínimamente los contenidos tanto en el proceso de análisis (entrada en la base de datos) como en el de búsqueda de la información. Es el sistema defendido fundamentalmente por los partidarios de la búsqueda mediante el texto completo.
Las ventajas de estos lenguajes consisten básicamente en: la eliminación de especialistas de contenido, ya que no hay que codificar la indización ni la demanda y la eliminación de los costes de estos especialistas. Los inconvenientes son: que se requiere de equipos con gran capacidad de memoria y por tanto más caros y que la recuperación de información produce altas tasas de ruido y silencio.
Lenguaje controlado
Lenguaje codificado o en lengua natural codificada. Las Las ventajas de este tipo de lenguaje es que reduce los niveles de ruido y silencio y permite ampliar y especificar las búsquedas de información pasando directamente de temas más amplios a temas más específicos o simplemente relacionados. Los inconvenientes más destacables tienen que ver con el coste que supone la creación y el mantenimiento de estos lenguajes y la dificultad de los usuarios para conocer el sistema de codificación del lenguaje.

Lenguajes de estructura jerárquica y lenguajes de estructura combinatoria

Dentro de los lenguajes controlados se puede distinguir entre lenguajes de estructura jerárquica y lenguajes de estructura combinatoria.

Los lenguajes de estructura jerárquica se caracterizan, sobre todo, porque todos los conceptos dependen de uno superior, de significado más genérico, que a su vez se integra en otro superior y así sucesivamente. O sea, los conceptos se disponen en riguroso orden decreciente de amplitud sémica. El ejemplo más famoso de este tipo de lenguaje es el de la CDU (Clasificación Decimal Universal) en donde la representación de cualquier documento se codifica en base a unas pocas materias.

Los lenguajes de estructura combinatoria se caracterizan porque los términos o descriptores se combinan sin quedar sujetos en una posición determinada. Los dos grandes tipos de lenguajes de estructura combinatoria son: los léxicos documentales y los tesauros. Los léxicos documentales pueden ser: alfabéticos de materias, de unitérminos y de descriptores. Los tesauros son un conjunto finito de términos que generalmente representan un campo del saber específico y que se caracteriza porque los términos que lo componen mantienen entre ellos relaciones semánticas de tipo jerárquico, asociativo o preferencial y que admiten notas aclaratorias para acotar la acepción de los términos que lo componen.


Los problemas de la representación por medio de palabras claves

El resultado del análisis documental de un texto es su representación mediante palabras claves o descriptores. El gran problema en la búsqueda de información es la de hacer coincidir los términos que utilizó el analista para representar un texto con los términos que tiempo después utilizará el usuario para recuperar ese texto. La consecuencia de este problema en la recuperación de información son dos fenómenos no deseados por los usuarios: el ruido: documentos que se recuperan y que no son relevantes a la búsqueda que realiza el usuario y el silencio: documentos que existen en la base de datos, que interesarían al usuario que busca información y que sin embargo no se recuperan porque no ha habido coincidencia entre los términos que utilizó el analista y los que luego utiliza el usuario que busca información.

Las razones que explican los problemas del ruido y silencio se deben fundamentalmente a:

  • La dificultad de predicción en la coincidencia de los términos durante el análisis y la búsqueda de información. Los problemas de predicción tienen que ver con el empleo de diversas figuras lingüísticas:
    • Flexiones y variantes gramaticales: singular, plural, formas verbales, etc. Produce aumento de silencio documental.
    • Variantes ortográficas del mismo término: Yeltsin, Eltsin, discos, disquetes, disketes, etc. Produce aumento de silencio.
    • Variantes idiomáticas: Lérida, Lleida. Produce aumento de silencio.
    • Sinonimia: muy utilizada en el español y especialmente en prensa. Produce aumento de silencio. Ejemplo: impuesto, tributo, contribución, etc.
    • Polisemia: diversidad de significaciones de una palabra. Ejemplo: planta (anatómica), planta (industrial), planta (botánica), etc. Produce aumento de ruido documental
    • Homonimia: palabras que siendo iguales por su forma tienen distinto significado y escasa relación sémica Ejemplo: banco (bebida), banco (entidad financiera). Provoca ruido.
    • Equivalencias de enunciados: Ejemplos: los accionistas dan el sí al nuevo BBVA. Los accionistas aprueban la fusión del BBV y Argentaria, etc. Produce aumento de ruido y de silencio.
  • La dificultad para generalizar: ¿cómo recuperar documentos relacionados con Andalucía sin en los documentos que hablan de Sevilla, Córdoba o Palma del Río no aparece el término Andalucía?.
  • La dificultad de evitar las falsas combinaciones en el uso de los operadores booleanos.

Bibliografía

  • LANCASTER, Frederick W. El control de vocabulario en la recuperación de información. Valencia: Universitat de Valencia, 1995. 286 p.
  • FUENTES I PUJOL, M Eulalia. Manual de documentación periodística. Madrid: Síntesis, 1995. 230 p.
  • GARCÍA GUTIÉRREZ, Antonio. Análisis documental: textos periodísticos escritos. En: Introducción a la documentación informativa y periodística. García Gutierrez, Antonio (Editor). Sevilla: Editorial MAD, 1999

© Tony Hernández. Universidad Carlos III de Madrid. Curso 2001/2002

correo tony@bib.uc3m.es