Recuperación de información

martes, 26 de mayo de 2009

Bases de datos

Es una aplicación que permite describir y organizar de manera estructurada los datos pertenecientes a un objeto. Por sus características estos sistemas pueden acumular una gran cantidad de información, que posteriormente podrá ser recuperada por cualquier usuario. En este sentido una base de datos se convierte en la base principal de cualquier sistema de recuperación de información. Por otra parte éstas pueden ser dispuestas de tal forma que un investigador que tenga una demanda documental no requiera conocimientos avanzados en programación para poder acceder a lo que puede suplir su necesidad.

Demanda documental

Se considera demanda documental a todas las necesidades de información establecidas por los usuarios, lo que lleva a una solicitud masiva de documentos que permitan satisfacer dicha necesidad.

SGBD

(Sistema de gestión de base de datos) o en inglés Database management system (DBMS), es una agrupación de programas que sirven para definir, construir y manipular una base de datos.

* Definir una base de datos: consiste en especificar los tipos de datos, estructuras y restricciones para los datos que se almacenarán.

* Contruir una base de datos: es el proceso de almacenar los datos sobre algún medio de almacenamiento.

* Manipular una base de datos: incluye funciones como consulta, actualización, etc. de bases de datos.

Si el sistema soporta bases de datos relacionales se llama RDBMS en inglés o SGBDR en español.

TERMINO ESPECIFICO

"Término subordinado a otro más genérico, y que por ello, conlleva un nivel mayor de especificidad. En los tesauros, el término específico se identifica a través de la abreviatura TE en español, o de la abreviatura NT en inglés."

consulte: http://www.eubca.edu.uy/diccionario/letra_t.htm

TERMINO DE INDIZACION

"En Indización, cada una de las conceptualizaciones simples, compuestas o complejas que son seleccionadas para representar el contenido de los documentos indizados. El término de indización puede pertenecer al lenguaje natural (o sea, proceder del título, el resumen o el texto de un documento) o de un lenguaje documental (tesauro, lista de autoridades, lista de descriptores, etc.)"

consulte: http://www.eubca.edu.uy/diccionario/letra_t.htm

TERMINO DE BUSQUEDA

"En Recuperación de Información, término que expresa una consulta en el lenguaje y formato adecuados para un sistema específico. Estos términos suelen combinarse para formar una ecuación de búsqueda"

consulte: http://www.eubca.edu.uy/diccionario/letra_t.htm

TERMINO CANDIDATO

"Noción que aspira a ingresar en forma definitiva a un corpus (tesauro, banco de datos terminológico, lista de autoridades, etc.). El término candidato es aquel que ingresa transitoriamente en una base, a efectos de verificar si por su relevancia y pertinencia puede pasar a la categoría de término."

consulte: http://www.eubca.edu.uy/diccionario/letra_t.htm

TERMINO AUTORIZADO

"Aquel rótulo seleccionado de entre un conjunto de sinónimos, cuasi sinónimos y/o términos equivalentes, para representar autorizadamente una noción dentro de un lenguaje documental, un lenguaje de indización o un instrumento terminológico. El término autorizado integra naturalmente la lista de autoridades del sistema."

consulte: http://www.eubca.edu.uy/diccionario/letra_t.htm

TERMINO

"En Terminología, noción que se compone de un rótulo o etiqueta (la palabra o la expresión que lo representan), y un contenido conceptual, construído mediante la enumeración de enunciados esenciales y propios de ese concepto."

para más informacion: http://www.eubca.edu.uy/diccionario/letra_t.htm

TAXONOMIA

"Rama de la Clasificación de las Ciencias que se ocupa de establecer los principios y el desarrollo de las clasificaciones en distintas disciplinas vinculadas a las ciencias naturales, como ser la biología, la botánica y la zoología."

para más información: http://www.eubca.edu.uy/diccionario/letra_t.htm

documento digital

TESAURO

"Tipo de lenguaje documental que se integra con términos analizados y normalizados que guardan entre sí relaciones semánticas y funcionales. El tesauro se organiza bajo fuerte control terminológico, con objeto de proporcionar un instrumento idóneo para el almacenamiento y la recuperación de la información en áreas especializadas. Puede ser monolingüe, monolingüe con equivalencias o multilingüe, conforme a la cobertura idiomática que proponga. En ciertos casos, agrega una notación."

para más informacion: http://www.eubca.edu.uy/diccionario/letra_t.htm

WilsonWEB

WilsonWEB

Es un proveedor con una amplia gama de bases de datos que cubren una gran cantidad de temas. Esta base de datos maneja registros de documentos y entrega en la mayoría de sus resultados el texto completo de los documentos en ellos descritos. Pero no solamente muestra documentos en texto completo, de la misma forma presenta índices temáticos.

Entonces se tienen bases de datos de texto completo en los siguientes áreas del conocimiento:
 Ciencia Aplicada y Tecnología
 Ensayo y Literatura
 Ciencias
 Humanidades
 Ciencias Sociales
 Biblioteca de Literatura y Ciencias de la Información

E índices para los siguientes temas:
 Biológica y Agrícola
 Educación
 Revistas y Libros Jurídicos
 Cuentos, entre otros

Así mismo brinda a los usuarios la posibilidad de hacer búsquedas básicas, por medio de las cuales se pueden usar términos simples; búsquedas avanzadas, para aquellos usuarios que quieren puntualizar los términos que desea encontrar; Thesauro, sirve para apoyar la búsqueda mediante la presentación de aquellos términos similares (sinónimos), relacionados o prerreferidos, del tema de investigación; Historial de búsquedas donde el usuario puede hacer un registro histórico de sus consultas; impresión en Email de los resultados, y exporting / citing sirve para exportar las citas de los documentos consultados o guardados en el historial, ya sea a un archivo, correo o impresora.

Esta base de datos permite hacer búsquedas tanto por palabras claves o por ecuaciones de consulta, por ejemplo:

Una consulta que en el título tenga las siguientes palabras:

 Serching o search
 Retrieval o retrievals
 Information o informations
 Document o documents
 Record o records
 System o systems

Pero no solo es que contenga estas palabras por que en ese caso nos entregaría un resultado muy amplio, lo importante es que todas se encuentren dentro del campo título, por consiguiente se podrá hacer una búsqueda como la siguiente:

TI and TI and TI

Y en caso de que no se conozcan bien los términos de búsqueda se puede utilizar el asterisco (*)

Esta base de datos de texto completo hace uso de formatos como el PDF y HTML para entregar a los usuarios los textos que describe.

EBSCO LISTA

Library, Information Science & Technology Abstracts with Full Text, es una base de datos que ofrece un índice de más de 500 publicaciones centrales, más de 50 publicaciones de prioridad y 125 publicaciones selectivas, además de libros, informes de investigación y actas. También contiene textos completos de más de 240 publicaciones. El contenido de esta base de datos se remonta a mediados de la década de 1960, dicho contenido se encuentra en varios idiomas, sin embargo la mayoría está en idioma inglés y otra parte en español.

EBSCO LISTA, es una de las bases de datos de gran soporte para la formación de Profesionales de información (bibliotecólogos y archivistas), ya que abarca una gran variedad de temas de interés.

Los formatos de archivo que utiliza para sus documentos son: PDF, HTML y JPEG, permite la generar copias del contenido y descargar los archivos PDF y JPEG. Además permite crear carpetas de búsqueda personalizada, en donde se seleccionan y adicionan los documentos que se consideren relevantes.

Para formular búsquedas, la interfaz de esta base de datos es muy grafica y muy intuitiva para el usuario, le permite formular búsquedas por palabras claves, búsquedas avanzadas utilizando ya sea los operadores booleanos o la opción búsqueda avanzada, además contiene una opción llamada “búsqueda Visual”, en donde orienta al usuario, con un video, como ubicar los resultados por Clústeres.

También contiene un historial de búsquedas, en donde lista las búsquedas que se formularon por sesión, permite ubicar las publicaciones por orden alfabético, y, contiene un modulo de tesauro en donde se pueden consultar las categorías generales de los temas del contenido.

Interacción hombre-máquina

“A partir de la explosión tecnológica ocurrida durante los años 70, se hizo necesaria la comunicación directa entre el hombre y las computadoras. Del estudio de este fenómeno, surgió una nueva área estudio: la interacción hombre-máquina (Machine Men Interaction) o más específicamente HCI (Human Computer Interaction)”.20

La Association for Computer Machinery (ACM), una organización internacional de investigadores y profesionales interesados en todos los aspectos de la computación, junto a su grupo especial en temas de la IHM denominado SIGHI (Special Interest Group in Computer Human Interaction), propusieron la siguiente definición para esta nueva área del conocimiento: “Es la disciplina relacionada con el diseño, evaluación e implementación de sistemas informáticos interactivos para el uso de seres humanos y con el estudio de los fenómenos más importantes con los que se relaciona”.21

Sobre esta base, puede afirmarse que el tema principal de esta disciplina está en la interacción y más específicamente en la interacción entre uno a más usuarios y una o más computadoras. Pero, entre el usuario y una computadora existen un conjunto de factores que actúan como mediadores a lo largo del proceso de interacción:

Las computadoras pueden formar parte de monitores de autos, teléfonos móviles, libros electrónicos, sistemas de realidad virtual, etcétera.
El usuario puede tener su visión o movilidad disminuida y utilizar software de lectura de pantalla o de reconocimiento de voz para el manejo de la pantalla.
Los usuarios pueden formar parte de grupos u organizaciones, y necesitan, por tanto, interfaz para sistemas distribuidos o de trabajo cooperativo.
La IHM puede abordar todas estas situaciones, ella se ocupa, en síntesis, del análisis y diseño de interfaz para la relación hombre-máquina, conocidas como interfaz de usuario. "La IHM puede analizarse en función de su estilo, estructura y contenido:

Estilo: Se refiere a la forma en que el usuario introduce y recibe información-distribución de los comandos, menús de selección.
Estructura: Se relaciona con la forma de organizar los componentes-distribución de los comandos en pantalla o de los campos en un formulario.
Contenido: Aborda los significados semánticos y pragmáticos que se producen mediante el diálogo."20

RODRÍGUEZ PEROJO, Keilyn y RONDA LEÓN, Rodrigo. Organización y recuperación de la información: un enfoque desde la perspectiva de la automatización [en linea]. http://bvs.sld.cu/revistas/aci/vol14_1_06/aci04106.htm [citado en 26 de mayo de 2009]

Indización automática o asistida por computadora

Uno de los autores más importantes en el campo de la indización, Jacques Chaumier, definió la indización desde dos puntos de vista: como proceso y finalidad. Desde la primera posición, la indización es la descripción y la caracterización del contenido de un documento, con la ayuda de las representaciones de los conceptos; sin embargo, su fin último es posibilitar la recuperación de la información almacenada en el sistema.2 Es decir, Chaumier, junto con muchos otros autores, considera a la indización como el paso previo para una adecuada recuperación de la información. La definición de automatización de la indización se debe acometer desde una triple perspectiva:2

Programas informáticos que asisten en el almacenamiento de los términos de indización, una vez obtenidos de modo intelectual -indización asistida por computadora durante la fase de almacenamiento.
Sistemas que analizan los documentos de modo automático, donde los términos de indización propuestos se validan y editan -si es necesario- por un profesional -indización semiautomática).
Programas sin ningún tipo de validación, es decir, los términos propuestos se almacenan directamente como descriptores de dicho documento -indización automática.
A mediados de la década de los años 60, Stevens, definió la indización automática: “como el uso de máquinas para extraer o asignar términos de indización sin intervención humana, una vez que se han establecido programas o normas relativas al procedimiento”.3 En estos momentos, comienzan a distinguirse distintas concepciones, en ocasiones complementarias. Por una parte, se encuentra la aplicación de los métodos no lingüísticos que agrupan esencialmente: a los estadísticos, la atribución de pesos a la información, los probabilísticos y los basados en técnicas de agrupamiento-clustering, álgebra booleana, escalamiento multidimensional) y por otra, los que ejecutan ciertos análisis lingüísticos de los textos, que se enmarcan dentro del estudio del procesamiento del lenguaje natural, una disciplina surgida a finales de los años 50.

RODRÍGUEZ PEROJO, Keilyn y RONDA LEÓN, Rodrigo. Organización y recuperación de la información: un enfoque desde la perspectiva de la automatización [en linea]. http://bvs.sld.cu/revistas/aci/vol14_1_06/aci04106.htm [citado en 26 de mayo de 2009]

sábado, 23 de mayo de 2009

SQL (Structured Query Languajes)

Su sigla significa Structured Query Languajes que en español significa Lenguaje Estructurado de Consulta. Hacia los años 70 hace aparición en el ámbito de los sistemas de gestores de bases de datos, en 1986 es normalizado por la ANSI y en 1987 es aceptado como lenguaje por la ISO.

Éste lenguaje permite sustraer información de una base de datos relacional, así mismo sirve para modificar las tablas que conforman dichas bases de datos. Para lograr el objetivo, se utilizan declaraciones que indican a la máquina que debe recuperar de la colección de datos. Su funcionamiento se caracteriza por utilizar como guía las matemáticas, lo cual le permite llevar a cabo operaciones con los comandos para recuperar información3.

Como el fuerte de este lenguaje es la recuperación de información, en su conjunto de sentencias existe una llamada SELECT. Esta es la encargada de buscar y presentar la información solicitada a la base de datos. El SELECT, indica que columnas se van usar para mostrar la información.

Sin embargo ésta sentencia no funciona sola, pues para que produzca los resultados mínimos debe acompañarse de la sentencia FROM. El FROM, sirve para indicarle al sistema de donde debe tomar los datos, es decir que tabla o tablas de la base de datos contienen la información.

Las anteriores sentencias son básicas para la recuperación de información, y se aplican a consultas en una sola tabla. Ahora bien, si se requiere consultar más de una tabla o especificar la presentación de los datos, se utilizan 4 sentencias más: WHERE, GROUP BY, HAVING y ORDER BY.

WHERE que la ayuda a limitar los resultados de la consulta. Por ejemplo, si se requiere encontrar en una base de datos de empleados aquellos que viven en Bogotá, se recurre a ésta sentencia.

GROUP BY ésta sentencia permite agrupar los resultados de acuerdo con un termino común y ofrece los resultados en forma de conteo de ocurrencias o en valores numéricos.

HAVING se encarga de especificar los grupos que se han de mostrar, y que cumplen con una características específica.

ORDER BY hacer ordenar los resultados de la consulta ya sea de menor a mayor o viceversa.

3 Wikipedia. SQL [en línea]. [citado en 31 de marzo de 2009]

CQL (Contextual Query Language)

“Es un lenguaje formal para representar consultas a sistemas de recuperación de información, tales como Web índices, catálogos bibliográficos y de información de la colección en un museo.

El objetivo es diseñar las preguntas que el ser humano lectura y escritura, y que el lenguaje sea intuitiva, manteniendo la expresividad de los idiomas más complejos.

Tradicionalmente, los lenguajes de consulta se han reducido en dos campos: Potente, expresiva idiomas, no de fácil lectura ni de escritura para los no expertos (por ejemplo, SQL, PQF, y XQuery), o simple e intuitiva las lenguas no es lo suficientemente poderosa como para expresar conceptos complejos (por ejemplo, la CCL y google). CQL intenta combinar la sencillez y la intuitiveness de expresión de los simples, todos los días de consultas, con la riqueza de los idiomas más expresivos para dar cabida a conceptos complejos, cuando sea necesario.”2

2 The Library of Congress. CQL: contextual Query Language (SRU, versión 1.2 Especificaciones) [en línea]. [citado en 4 de abril de 2009]

CCL (Common Command Language o lenguaje común de comandos)

Este lenguaje de búsqueda es muy utilizado especialmente en las bases de datos, permite restringir las búsquedas mediante comandos en campos específicos como autor, titulo, fecha, etc.

Además permite combinar las búsquedas con los operadores lógicos. Ha sido diseñado como respuesta a la variedad de lenguajes de búsqueda que existen, pues su objetivo es el de normalizar los comandos de búsqueda. Este proyecto fue liderado por la ISO y se encuentra representado en la norma ISO 8777.

Operadores Posicionales

Estos operadores localizan los resultados en los que las palabras claves estén en proximidad dentro del documento. Los operadores posicionales se pueden utilizar para conectar palabras o frases dentro de un campo de búsqueda pero no entre campos de búsqueda. Por lo general son utilizados en catálogos bibliográficos.

Símbolos: SAME, WITH

Operadores de Proximidad

Estos operadores permiten especificar la proximidad de los términos de búsqueda y son utilizados cuando se desea que estos aparezcan juntos o separados por un determinado número de palabras. Los operadores de proximidad se subdividen en las siguientes clases:

Operador de existencia

Este operador se aplica, cuando se quiere que alguna palabra clave aparezca dentro del contenido del documento. Es decir que los resultados traerán las páginas en que aparece la palabra clave.

Símbolo: +

Operadores de proximidad

Este operador es utilizado para obtener resultados precisos, permiten especificar la relación entre las palabras clave.

Los símbolos utilizados son: NEAR, ADJ, ""

Operador NEAR

Es un operador un poco parecido a operador (AND), pero a diferencia de este operador, NEAR exige que entre ambas palabras no existan más de 10 palabras.

Ej. Recuperación NEAR Información

Operador ADJ
Es un operador un poco parecido al operador AND, pero este exige que ambas palabras clave sean compuestas, aun cuando no estén en el orden indicado.

Operador búsqueda por frases (“”)
Es un operador parecido al anterior, pero este exige que las palabras estén en el orden exacto, planteado en la ecuación de búsqueda.

Operadores de Agrupamiento

Estos operadores son utilizados para agrupar los términos o expresiones de búsqueda.

simbolos utilizados: ()

Ej. (contraseña OR password OR keywords) AND (LISA AND LISA databases)

Operadores de Truncamiento (EXACTITUD)

Sirven para ampliar y simplificar una búsqueda, permitiendo incluir el plural o las variantes del término que hemos elegido.

Símbolos utilizados: ? * !

Ej. (Biblio*) o (Biblio?) o (Biblio!) = esta expresión de búsqueda traerá como resultado: Biblioteca, bibliotecas, bibliotecología, bibliotecólogos, bibliografía, bibliometria, etc.

Operadores booleanos o lógicos

Son instrumentos de recuperación de la información basados en la teoría de los conjuntos. Los más importantes son AND, OR y NOT. Los cuales tienen como función la intersección, unión y exclusión respectivamente. Se utilizan para acotar las búsquedas en base de datos bibliográficas como asimismo en buscadores y metabuscadores de la Web.

Operador AND
Cuando es utilizado este operador entre dos términos de búsqueda, traerá como resultado documentos que contengan ambos términos (intersección).

Operador OR
Cuando es utilizado este operador entre dos términos de búsqueda, traerá como resultado documentos que contengan Cualquiera de los dos términos (Unión).

Operador NOT
Cuando se utiliza este operador entre dos términos de búsqueda, traerá como resultado documentos que contengan uno de los dos términos (Exclusión).

¿Qué es un lenguaje de Consulta?

Es el lenguaje mediante el cual, un usuario expresa su necesidad de información bien sea en un motor de búsqueda o una base de datos, utilizando filtros o condiciones, para delimitar y precisar los resultados. En otras palabras es la estrategia de búsqueda que un usuario plantea para satisfacer sus necesidades de información.

Los lenguajes de consulta o lenguajes de recuperación son “un conjunto de órdenes, operadores y estructuras que, organizadas según unas normas lógicas, permiten la consulta de fuentes y recursos de información electrónica”1

En los lenguajes de consulta, los operadores son los encargados de estructurar las ecuaciones (de formular la pregunta). Dentro de los operadores se encuentran los siguientes: Operadores Booleanos o Lógicos, operadores de truncamiento, operadores de agrupamiento, operadores de proximidad y operadores posicionales.

1 Lenguajes de recuperación: Recuperación y organización de la información [En línea], 20/04/2006, [citado 01-04-2009], Formato html, Disponible en Internet: http://es.geocities.com/lenguajes_recuperacion/index.html

Tipos de Necesidades de Información

Dentro de las necesidades de información, encontramos dos tipos:

La Necesida de Información Concreta:

Es cuando la persona tiene clara su necesidad de información, lo que le permite formular búsquedas exactas, por palabras clave, dentro de un sistema de recuperacion de información. Por lo general este tipo de necesidad es muy fácil de resolver, porque lo único que necesita es un buen documento.

La Necesidad de Información Orientada al Problema:

Este tipo de necesidad, es la más complicada de resolver, ya que el usuario no tiene clara y definida su búsqueda, su necesidad de información es abstracta.

Búsqueda de Información

La búsqueda de información se puede entender como las estrategias que diseña una persona para satisfacer sus necesidades de información. Es decir, cuando una persona define que herramientas utilizará para encontrar lo que búsca.

Concepto de Información

Información puede ser entendida como un conjunto de datos organizados, con sentido lógico, que comunican cualquier cosa.

Nota: Es importante tener en cuenta que la información nace segun las necesidades de cada quien, pusto que, lo que para mi es información para otra persona no lo sera. Todo depende del contexto en el que nos encontremos.

Necesidad de Información

La necesidad de información es un vacío o carancia de información que tiene una persona, y que búsca ser satisfecho.

Demanda documental

La demanda documental la podemos entender como la nesecidad de información que tiene una persona, la cual es expresada a un sistema de recuperación de información, con el fin de ser satisfecha.

Algunas definiciones de Recuperación de Información

Para Mario Fernando Hinestrosa Bejarano

llamada en ingles information retrival (IR), es la ciencia de la búsqueda de información en documentos, búsqueda de los mismos documentos, la búsqueda de metadatos que describan documentos, o, también, la búsqueda en bases de datos, ya sea a través de internet, intranet, para textos, imágenes, sonido o datos de otras características, de manera pertinente y relevante.

La IR es un estudi interdisciplinario. Cubre tantas disciplinas que esto genera normalmente un conocimiento parcial desde tan solo una u otra perspectiva. Algunas de las disciplinas que se ocupan de estos estudios son la psicología congnitiva, la arquitectura de la información, diseño de la información, el comportamiento humano hacia la información, la linguística, la semiótica, informática, biblioteconomía y documentación.

Más información en http://www.slideshare.net/colfreepress/patrimonio-documental-artstico-y-recuperaci-de-informacin

martes, 19 de mayo de 2009

En Wikipedia

La recuperación de información, llamada en inglés Information retrieval (IR), es la ciencia de la búsqueda de información en documentos, búsqueda de los mismos documentos, la búsqueda de metadatos que describan documentos, o, también, la búsqueda en bases de datos, ya sea a través de internet, intranet, para textos, imágenes, sonido o datos de otras características, de manera pertinente y relevante.

La IR es un estudio interdisciplinario. Cubre tantas disciplinas que eso genera normalmente un conocimiento parcial desde tan solo una u otra perspectiva. Algunas de las disciplinas que se ocupan de estos estudios son la psicología cognitiva, la arquitectura de la información, diseño de la información, el comportamiento humano hacia la información, la lingüística, la semiótica, informática, biblioteconomía y documentación.

Los buscadores, tales como Google, Lycos y Copernic, son algunas de las aplicaciones más populares de la recuperación de información. Básicamente hay que construir un Vocabulario, que es una lista de términos en lenguaje natural, un algoritmo que incluya las reglas lógicas de la búsqueda {Tabla de verdad} y una valoración de los resultados o cantidad de información lograda o posible. Este motor de búsqueda es pues el que permite plantear una pregunta con no menos de dos términos y mostrar los resultados mínimos y el logaritmo natural de las interacciones será alrededor de 3.

Algunos de los estudiosos más destacados dentro de esta subdisciplina son Gerald Salton, W Bruce Croft, Karen Spärck Jones, C. J. van Rijsbergen, Ricardo Baeza Yates.

A veces se plantean ciertos problemas a la hora de recuperar información provocados por el uso del lenguaje natural (entre otras razones) como el silencio (debido a la sinonimia), el ruido (debido a la polisemia), homografía, ambigüedad, etc.

Consulte: http://es.wikipedia.org/wiki/Recuperaci%C3%B3n_de_informaci%C3%B3n

Para: Jesus Tramullas

La recuperación de información es el conjunto de tareas mediante las cuales el usuario localiza y accede a los recursos de información que son pertinentes para la resolución del problema planteado. En estas tareas desempeñan un papel fundamental los lenguajes documentales, las técnicas de resumen, la descripción del objeto documental, etc. (CROFT, 1987) Todos estos factores ya han sido tratados exhaustivamente por la bibliografía especializada, por lo que no resulta necesario insistir sobre ellos en este lugar. Sin embargo, si es necesario recordar, como se ha señalado en la introducción, que la informatización de estas tareas se engloba dentro del campo de la Documentación Automatizada o Informática Documental.

Para más información consulte:http://tramullas.com/documatica/3-1.html

Para: Maria Pinto Molina

La recuperación de información es el siguiente paso a la determinación de las necesidades de información. Se puede recuperar a través de diferentes herramientas: bases de datos, Internet, tesauros, ontologías, mapas... Conocer y manejar estas herramientas contribuye a una recuperación de calidad.

Para más información consulte la pagina http://www.mariapinto.es/e-coms/recu_infor.htm

Historia de la recuperacion de Informacion

"Historia de la recuperación y organización de la información

La idea de utilizar los ordenadores para buscar fragmentos relevantes de información se popularizó en el artículo "As we may think" de Vannebar Bush en 1945. Las primeras implementaciónes de mecanismos de recuperación de información fueron desarrolladas en las décadas de los 50 y 60.

En 1992, el Departamento de Defensa de EEUU, junto con el Instituto Nacional de Estándares y Tecnología (NIST), patrocinó la Conferencia de Recuperación de Texto (TREC). El objetivo de este programa fue proporcionar a la comunidad dedicada a la recuperación de información la infraestructura necesaria para la evaluación de metodologías de recuperación en una colección muy amplia de textos. Esto originó la investigación de métodos escalables a conjuntos enormes de información. La aparición de los motores de búsqueda vía web (como Google o Yahoo) ha hecho más necesaria todavía si cabe la necesidad de disponer de sistemas de recuperación y organización de información a gran escala.

Algunos de los hitos de la recuperación de información son:

* 1890: Máquinas automáticas se emplean para analizar el censo de EEUU.
* Finales de los 40: El ejército de EEUU. se enfrenta al problema de abordar la recuperación y organización de la información científica de los documentos capturados a los Alemanes en la Segunda Guerra Mundial.
* 1945: El artículo "As We May Think" de Vannevar Bush aparece en la publicación "Atlantic Monthly"
* Década de los 1950: La preocupación creciente acerca de la creación de una brecha científica respecto a la URSS provoca un aumento en la financiación y con ello una base para los sistemas mecánicos de búsqueda en literatura y la aparición de la indexación de citas en publicaciones (Eugene Garfield).
* 1950: Calvin Mooers acuña el termino "recuperación de información" ("information retrieval")
* 1955: Allen Kent junto con algunos colegas publican un documento describiendo un marco de trabajo para la evaluación de sistemas de recuperación de información, describiendo las métricas de precisión y recall e incluyendo métodos de muestreo estadístico para estimar el número de documentos relevantes no recuperados
* 1962:Cyril W. Cleverdon publica los primeros resultados de las investigaciones sobre el conjunto Cranfield, desarrollando un modelo para la evaluación de sistemas de recuperación de información. Por otro lado, Kent publica "Information Analysis and Retrieval"
* 1969: El artículo de J.W.Sammon "A nonlinear mapping for data structure analysis" incluye la primera propuesta para un posible interfaz visual de un sistema de recuperación de información.
* 1989: Primeras propuestas de la WWW por Tim Berners-Lee en el CERN.
* 1992: Primera conferencia TREC."

contenido extraido de la pagina http://www.recuperacioninformacion.com/historia-recuperacion-informacion.html

Algunos Sistemas de Recuperacion de Información

Los sistemas de recuperación más conocidos en el medio, son los metabuscadores, entendiendolos como, sistemas de búsqueda en la red que funcionan, por una parte de forma automatizada, pero posteriormente su información es indexada y ordenada con intervención de criterios establecidos por un moderador u organización. Ejemplo de ellos:

Google
Yahoo
Dogpile
Kartoo

Funcionamiento de los Sistemas de Recuperacion de Informacion

Los sistemas de recuperación de información funcionan de la siguiente manera:

1. El usuario plantea una busqueda (su necesidad de información)
2. Los sistemas buscan dentro de los documentos que existen en sus bases de datos, aquellos en los que aparecen los terminos solicitados.
3. Los sistemas le muestran al usuario los documentos que coincidieron con los terminos consultados y los ordena por relevancia según el algoritmo definido para el ranking.

domingo, 17 de mayo de 2009

Mapa de documento

sábado, 16 de mayo de 2009

INTRODUCCIÓN A LA RECUPERACIÓN DE INFORMACIÓN

En este blog, encontrará las memorias de clase de la catedra Recuperación de Información del Programa de Sistemas de Información y Documentación de la Universidad de la Salle. Las hemos públicado con el fin de dar a conocer nuevas perspectivas en cuanto al campo de acción concerniente al uso de nuevas tecnologías y a la recuperación de información, tanto de bibliotecólogos como archivistas, dando respuesta a las nuevas demandas que genera su entorno profesional.

Para hablar de recuperación de información (que es una tarea compleja), es necesario tener claros algunos conceptos, que faciliten la comprensión y el alcance del tema. Como primera medida se expondrá una definicion basica de Documento, construida a partir de los conocimientos adquiridos en clase, al igual se hablará de los direntes tipos de documentos y el amplio espectro que abarca.

Definiciones

Documento: Para no entrar en discusiones acerca de las concepciones que existen sobre documento, lo definiremos como, toda información que se encuentra plasmada en un soporte, yendo desde las antiguas tablillas cuneiformes de Mesopotamia, hasta nuestros correos electronicos, archivos de audio, videos, etc.

Aunque esta definición es muy corta, encierra un gran espectro, ya que nos encontramos en un mundo invadido de información, en un mundo lleno de documentos. De hay la importancia del que hacer del bibliotecólogo, el archivista, el museólogo y demás profesiones encargadas en la administración de documentos, ya que de ese mundo de documentos, son capaces de seleccionar aquellos que son relevantes y pertinentes, para satisfacer las necesidades informativas de un usuario, contribuyendo a la generación de nuevo conocimiento y al desarrollo en general de la sociedad.

Documento electrónico: en términos generales podemos definir este tipo de documento como aquella información plasmada en un soporte, que para ser consultada, recuperada o visualizada, necesita la intervención de una maquina que procese el contenido.

Ejemplo de documentos electrónicos: las cintas magnéticas, los microfilms, los video-casetes, los LP, etc.

Documento Digital:
“Todo documento digital es electrónico, pero no todo documento electrónico es digital”

Humbert Garrido
Profesor de la cátedra Bases de datos
Universidad de la Salle

El documentos digital es una de las clases de documentos electrónicos, lo que significa que para poder acceder a su contenido se debe disponer de una máquina (en este caso un computador).

A diferencia de los demás documentos electrónicos, los digitales están escritos en lenguaje binario o de máquina, es decir en unos (1) y ceros (0). Éste lenguaje es comprendido por la computadora, y por medio de su interpretación nos muestra la información que en su origen esta representada –como ya se ha dicho- en unos y ceros, convertida en letras y símbolos comprensibles por los humanos.

Para hacer posible ésta interpretación, surgió hacia 1963 el código ASCII (American Standard Code for Information Interchange). Éste se basa en el lenguaje de código construido para el manejo de los telégrafos. Su función principal es la de permitir el intercambio de información entre máquinas, así como también de procesarla y almacenarla. En 1967 fue establecido como estándar y de ahí en adelante ha servido como base para la creación de otros códigos para intercambio de información. En el siguiente enlace http://es.wikipedia.org/wiki/ASCII se puede encontrar la historia de este código y una tabla con el alfabeto latino y sus correspondientes códigos binarios o ASCII.

Entonces, puede llamarse documento digital, a todo aquel documento que su contenido este representado por cadenas de bits, es decir cadenas de unos y ceros y que al ser interpretadas por la máquina mostrara la información conservada en tales documentos. En este orden de ideas tendríamos como documentos digitales aquellos elaborados bajo la guía de cualquier software (Word, Excel, power point, Acrobat, Autocad, etc.), aquellos físicos que han sido digitalizados mediante el uso de un escaner e incluso aquellas fotografías tomadas desde una cámara digital

Recuperación de Información

Es la metodología intuitiva que sigue un usuario para satisfacer sus necesidades de información, gracias al trabajo de análisis descriptivo y las estrategias de búsqueda definidas por un profesional de la información.

El objetivo R.I. consiste en recuperar, de una gran cantidad de documentos, los más relevantes y pertinentes, con el fin de dar respuesta a las consultas de los usuarios.

Para facilitar esta terea, se recomienda seguir los siguientes pasos:

1. se debe definir de forma clara y concreta, la necesidad de información. Es decir, el usuario debe tener claro el tema que desea consultar.
2. se deben elegir los recursos de información apropiados, para realizar las busquedas.
3. se deben diseñar las estrategias y ecuaciones de consulta a utilizar, con el fin de delimitar los resultados.
4. se deben analizar y eligir los resultados que más se aproximan a dar respuesta al usuario.
5. se debe presentar al usuario los resultados, para que él decida cuál o cuáles de ellos satisface su necesidad.

Sistemas de Recuperación de Información

Los SRI, son sistemas que facilitan de manera automatizada la recuperación de información, utilizando algoritmos de búsqueda, con el fin de recuperar los documentos más significativos. Ejemplo: las bases de datos y los metabuscadores.

Pero también existen otro tipo de SRI, como los desktop search y los indizadores como SWISH-E, son fáciles de usar y de instalar.

Los DESKTOP SEARCH, son herramientas de búsqueda, que permiten localizar información dentro de un computador personal o directamente desde de la web. Localizan archivos dentro del historial de búsquedas del navegador, archivos de correo Electrónico, documentos des texto, archivos de sonido, imágenes y video. Una de las principales ventajas de estas herramientas, es que los resultados tardan en aparecer solo unos segundos, convirtiendose en una gran solución para facilitar la recuperación de información en este medio. Los motores de búsqueda de escritorio, crean, mantienen y actualizan un índice de datos para lograr un desempeño razonable en la búsqueda de grandes cantidades de información. En el índice se tiene en cuenta los siguientes criterios:

1. Los nombres de los documentos y sus rutas.

2. Los metadatos (título, autor, comentarios) y tipos de archivo (doc, mp3, pdf).

3. El contenido del documento.

Logrando de ésta manera reducir los tiempos de búsqueda y generar resultados confiables.

SWISH-E: Es una herramienta rápida, flexible, libre y de código abierto, utilizado para indexar colecciones con más de un millón de documentos (páginas Web u otros archivos). Utiliza el analizador de GNOME ™ libxml2 y una colección de filtros, con los que puede indexar documentos txt, correo electrónico, PDF, HTML, XML, Word , PowerPoint, Excel.

Swish-e suele utilizarse como complemento de las bases de datos que utilizan como gestor de bases de datos MySQL, para obtener mejores resultados de búsqueda en las colecciones.

Básicamente este aplicativo se compone de 2 partes, un indexador y un buscador. El indexador se encarga de analizar los documentos y extraer toda la información necesaria que permita crear la base de datos de índices. Una vez obtenida esta, se puede localizar la información a través del buscador.

Definiciones relacionadas con tema

INDIZACIÓN: La indización es el proceso de elaboración de estructuras lógicas que permiten a través de términos contenidos en los documentos el acceso de manera más fácil, rápida y sencilla a dichos documentos.
Normalmente, los sistemas de recuperación de información utilizan índices de estructura de datos que permiten la búsqueda de información utilizando técnicas de comparación de los enunciados propuestos con términos almacenados en el sistema.

ARCHIVO INVERTIDO:Se dice que un archivo invertido es un documento orientado al término permitiendo indizar su contenido, estos archivos invertidos se componen de dos elementos, así:
Por una parte el vocabulario, que no es otra cosa que un agregado de palabras que aparecen en un documento. Por otra parte, las ocurrencias, que corresponden a un listado de las veces que aparece un término dentro de un documento.

NECESIDAD DE INFORMACIÓN: se puede definir como la carencia de información que a través de una buena recolección de la misma se logra cierto estado de claridad. Dichas necesidades se pueden clasificar de la siguiente manera:

Necesidades de información concretas: en donde los usuarios tienen claramente definidas las temáticas, de modo que la recuperación de información se hace con terminología exacta lo que facilita la obtención de resultados de gran calidad.

Necesidad de información orientada al problema: en este tipo de necesidad, el usuario no tiene claridad en la definición de la temática, por tanto la búsqueda de información no se realiza de acuerdo con el problema lo que conlleva a un sin número de dificultades y a la poco probable satisfacción de la necesidad.

Recuperación de información

martes, 26 de mayo de 2009

sábado, 23 de mayo de 2009

martes, 19 de mayo de 2009

domingo, 17 de mayo de 2009

sábado, 16 de mayo de 2009

Etiquetas

numero de visitas

Seguidores

Archivo del blog

Datos personales