2. El ciberespacio como fuente de información

La información en el ciberespacio descansa en bases de datos de bibliotecas virtuales, información jurídica y parlamentaria, agencias de noticias, instituciones públicas y privadas.  El hecho de que las carreteras de la información signifiquen fuentes para los periodistas digitales, implica la búsqueda de información en la Red para encontrar el sitio adecuado en el momento preciso.

La información que se difunde por internet tiene el problema de la falta de credibilidad, por lo tanto el periodista digital debe contar con suficientes criterios para valorar la veracidad de las informaciones que obtenga; pues muchos de los datos que viajan por la Red no son fuentes confiables para el usuario ni para el periodista, por lo mismo éste último deberá cotejar y verificar sus fuentes.

En internet, una de las desventajas es constar la credibilidad de las fuentes o la rigurosidad de los datos que se ofrecen. El anonimato frecuente detrás de las informaciones es un motivo para dudar de la veracidad de los mensajes. Por  lo mismo, los poseedores de un título o de una marca que hayan obtenido el reconocimiento del mercado tradicional serán más consultados en los ciberespacios: los buscadores.

 

2.1 Buscadores

Existen dos métodos para localizar información en internet: uno puede ser a través de la navegación y el otro buscando.Navegar es el proceso de seguir enlaces de hipertexto creados por otros usuarios.

Sin embargo, buscar depende de un programa que se encarga de hacer coincidir las palabras calve que el usuario indica en la búsqueda con los documentos más relevantes que existen en la Red. Este método requiere conocer el uso de las herramientas de búsqueda.

Hoy en día internet se ha convertido en una herramienta para la búsqueda de información rápida, para ello han surgido los buscadores (browser), que son un motor de búsqueda que nos facilita encontrar información rápida de cualquier tema de interés, en cualquier área de las ciencias, y de cualquier parte del mundo.

Se clasifican en dos tipos:

  • Índices temáticos o Directorios: Son sistemas de búsqueda por temas o categorías jerarquizados, aunque también suelen incluir sistemas de búsqueda por palabras clave. Se trata de bases de datos de direcciones Web elaboradas «manualmente», es decir, hay personas que se encargan de asignar cada página web a una categoría o tema determinado.
  • Motores de búsqueda: Son sistemas de búsqueda por palabras clave. Son bases de datos que incorporan automáticamente páginas web mediante «robots» de búsqueda en la red. Su función es localizar documentos de hipertexto.

Los buscadores más habituales para localizar información son:

  • Google: Considerado el número uno de los buscadores, se ha afianzado en los últimos años como líder mundial del sector. Además de que cuenta con otros servicios.
  • Yahoo: Uno de los portales pioneros en internet, ha desarrollado una tecnología de búsqueda muy similar a la de Google, aunque según los expertos, por debajo de ésta.
  •  MSN search de Microsoft: Aporta búsquedas a través de la enciclopedia Encarta.
  • Amazón (A9): Con un nuevo servicio local interesante que permite ver fotografías y datos de los establecimientos comerciales (solo en Estados Unidos).

Otros buscadores:

  • Clusty Beta de Vivisimo.
  • Ask Jeeves. Con Teoma.
  • Mooter- Web Search.
  • Grokker de Groxis, lo tienes que descargar a tu equipo: visualiza el mapa de una búsqueda.
  • Kartoo, con mapa conceptual de un site y otros muchos servicios de búsqueda.
  • Pubsub. Suscripciones a términos de búsqueda en tiempo real.
  • AlltheWeb.com de Overture, adquirido por Yahoo.
  • Altavista.
  • Fast.
  • Nothem Lighr.
  • WiseNut.
2.1.1 Cómo funcionan

El motor de búsqueda más popular, Google, contiene más de 3.000.000.000 sitios web. Cuando introduces una frase o palabra, el motor buscará en su base de datos y devolverá resultados en un orden que estará determinado por su propio algoritmo.

El uso de estos programas denominados buscadores se basa en un sistema llamado “araña”, que rastrea y localiza páginas web en los servidores de todo el mundo y con ellas forman su base de datos.

En el momento de crear estas bases de datos, las arañas saltan de una página a otra, a través de los enlaces. Cuando el “robot o araña” localiza una página, esta recibe como entrada el texto localizado y produce como salida in índice invertido. En este índice se almacenan las raíces de las palabras y se excluyen los términos vacíos.

A la hora de realizar la búsqueda intervienen varios elementos: el formulario de búsqueda, la máquina que evalúa la búsqueda y la hace coincidir con las palabras indicadas, y los resultados de dicha búsqueda. Lo más importante y significativo de un buscador es, cómo calcula la relevancia que se da a una determinada página y que influirá en el orden en el que aparece en la lista de resultados.

Por pasos:

  1. Una araña visita tu página Web.
  2. La araña lee el contenido de tu página Web.
  3. La araña lleva toda la información a una central, donde un sistema la procesa y la almacena.
  4. El sistema crea un índice con las palabras que utilizas en tu Web y las ordena por relevancia.
  5. El sistema intenta descubrir si eres una buena página o no (en realidad comprueba cuanta gente recomienda tu Web y cuán importante es la gente que recomienda tu Web).
  6. Cuando alguien realiza una búsqueda, el sistema muestra todas las webs que contienen la palabra o frase buscada.
2.1.2 Estrategias de búsqueda

Buscar en internet es una tarea difícil por la gran cantidad de información, la ausencia de clasificaciones consistentes, las diferentes herramientas de búsqueda, los diversos modos de buscar y las presiones comerciales.

Para conseguir llevar a cabo una buena búsqueda son necesarios tres aspectos fundamentales:

  1. Diseñar un perfil de búsqueda adecuado; es decir hay que tener la habilidad de emparejar, con exactitud los términos que se eligen para construir el perfil de búsqueda, con los que están ubicados en los documentos cuya información se quiere encontrar.
  2. Conocer el tamaño y contenido de la herramienta de búsqueda que se elige.
  3. Conocer las posibilidades que ofrecen las diferentes herramientas de búsqueda para recuperar los contenidos de su base de datos.

El sistema más usual para la búsqueda son los motores de búsqueda trabajados con base a una estrategia sobre su manejo adecuado.

La mayoría de los motores de búsqueda, y también los directorios que permiten buscar en su propia base de datos, permiten la utilización de operadores lógicos booleanos que establecen la relación entre los términos de búsqueda. Estos operadores tomados del álgebra del matemático inglés George Boole, permiten combinar los términos de búsqueda de acuerdo con nuestras necesidades.

Los operadores utilizados son:

  • OR
  • AND
  • NOT

El uso de la lógica booleana en internet presenta algunas peculiaridades.

  • Presencia: el operador de presencia especifica que las palabras deben aparecer en el resultado, es decir, el término debe estar presente. Por lo general, se añade al inicio de la palabra clave el signo de sumar (+) sin espacio, para indicar al buscador que la palabra que sigue se incluirá obligatoriamente en la información recuperada.

Por ejemplo: +estadística.

  • Ausencia: en la estrategia de búsqueda, puede indicarse la ausencia de alguna palabra clave, de forma tal que si estuviera presente, se excluya de la lista de resultados devueltos por el buscador.

Por ejemplo: hepatitis -alcohólica

En este ejemplo nos presentara todos los documentos que contengan la palabra hepatitis pero excluirá el termino alcoholica.

  • Truncado: el truncamiento de palabras claves hacia la derecha es, tal vez, el más utilizado y admitido en los buscadores, pero también es posible al inicio o en el medio de la palabra clave. Generalmente se utiliza para truncar el símbolo de asterisco (*), pero algunos buscadores admiten otros símbolos como ($, # y ?).

En este caso hay que tener en cuenta que algunos buscadores no admiten este tipo de búsqueda en la utilización del truncamiento como función de búsqueda.

El truncamiento permite conocer cuáles son las formas en que puede presentarse el término o palabra que se trunca. Recuperando documentos que contengan la palabra clave, pero también aquellas en la que la palabra sea raíz o sufijo. El asterisco, reemplaza una serie indeterminada de letras.

Por ejemplo: hipert* se recuperan documentos sobre hipertensión, hipertiroidismo, hipertonía, etcétera.

  • Frases literales entre comillas: el uso de frases entre comillas indica la intersección de palabras en la búsqueda, que además, aparecen adyacentes.

Es muy parecido al and pero exige que la secuencia de palabras sea idéntica en el resultado de la búsqueda, la frase debe aparecer en el texto recuperado. Se aconseja indicar frases cortas que contengan términos que aparecen con frecuencia en los documentos consultados de la temática.

Por ejemplo: “sangramiento digestivo alto”

  • Los paréntesis: Se utilizan de la misma forma que en las ecuaciones matemáticas, limitando y ordenando las relaciones entre variables. Se utilizan para agrupar términos cuando se combinan operadores booleanos, e indican el orden en que deben aplicarse las relaciones dentro de la estrategia de búsqueda. El uso más común del paréntesis es para encerrar dos posibles palabras claves separadas por un operador or, y luego enlazando aquellas palabras incluidas con otro criterio usando and.

Por ejemplo: física and termodinámica and not (mecánica or oscilaciones).

En este ejemplo se nos presentaran las textos (artículos) de física pero se excluirán los términos mecánica y oscilaciones.

Física and termodinámica and (mecánica or oscilaciones)

En este ejemplo le estamos solicitando al sistema de búsqueda que nos encuentre textos (artículos) de física que contengan los términos de mecánica y oscilaciones.

Los operadores de proximidad permiten: definir la posición de las palabras dentro de las páginas o documentos en la estrategia de búsqueda.

Es muy importante revisar la ayuda del buscador elegido o la opción de búsqueda avanzada para conocer si éstos operadores son válidos para la bds. (bases de datos)

Ejemplos de operadores de proximidad:

  • Near: significa “cerca“ con él se solicita al buscador recuperar documentos que contengan las palabras clave indicadas, pero no separadas por más de 10 palabras o 100 caracteres entre sí. Se parece al and. En algunos buscadores, puede sustituirse por el símbolo “~” o por corchetes [ ] para encontrar palabras juntas. El operador near es especialmente útil para buscar nombres y apellidos. Su uso implica que ambos argumentos han de estar relativamente cerca.
  • Adj: este operador significa “junto” y se utiliza para recuperar conjuntos de búsqueda adyacentes. Se parece al and pero exige que entre ambas palabras no exista otra, es decir, que los términos aparezcan juntos, sea el orden que sea. En algunos buscadores, pueden encerrarse entre comillas ambas palabras para obtener resultados similares.
  • Far: con este operador se localizan documentos en los que las palabras claves de búsqueda indicadas aparezcan con 25 palabras o más de distancia.
  • Before: este operador funciona como el and, significa “antes de”. Difiere del and en que los términos o palabras indicadas deben aparecer en el orden que se especifique, pero pueden encontrarse a cualquier distancia en el mismo documento.
  • Followed by: este operador significa en español “seguido de”. Los resultados que se obtienen son muy parecidos a los del operador near, pero marca claramente el orden de las palabras claves. No es utilizado por muchos buscadores.
2.1.3 Recursos y fuentes digitales

La tarea de evaluación de una fuente de información conlleva  a la valoración de una serie de elementos intrínsecos a la misma, que en el supuesto de fuentes digitales se centran en los aspectos formales y en la calidad de los contenidos del recurso.

Se trata pues de una tarea en la que el usuario referencista, suma o añade a la ya tradicional identificación y recuperación de información en internet, una descripción de valor añadido a unos recursos digitales que por su naturaleza requieren de un control documental que ha de considerar necesariamente:

  • Las propiedades o características del recurso digital a evaluar: parámetros.
  • Los elementos del recurso digital que se van a considerar para cada una de las características anteriores: indicadores.
  • Y en tercer lugar a  aquellos medios por los que se procede a determinar la calidad del recurso digital: procedimientos.

En la metodología de evaluación que nos concierne, para cada parámetro, hay varios indicadores. O lo que es lo mismo, para cada propiedad de la fuente digital se consideraran una serie de elementos en la evaluación de cada una de las características o propiedades de la misma, al objeto de proceder a determinar la calidad de ésta.

En cada indicador el evaluador ha de contemplar los siguientes elementos:

  • Definición: la presentación del indicador.
  • Examen: la pregunta o preguntas que deben hacerse al analista para adoptar decisiones sobre el indicar.
  • Ejemplos: aclaraciones de recursos digitales en línea, que ayudan a entender la evaluación del indicador.
  • Procedimiento: orientaciones, cuando sea oportuno, sobre cómo proceder a la evaluación del indicador.
  • Puntuación: la escala de puntuación recomendada.

Los parámetros de nuestro protocolo de evaluación se agrupan en tres secciones, que establecerán el orden del recorrido dela guía de buenas prácticas. Estas secciones son:

  • Micronavegación:examina los aspectos de organización y estructura de la publicación.
  • Macronavegación: aspectos de encaje del recurso en el contexto global de la WWW.

Usabilidad: se refiere, principalmente, a los aspectos transaccionales de una sede web. Esto es, a la facilidad de uso de aquellas opciones de la publicación digital que impliquen algún tipo de actividad o transacciones.

2.1.4 Otros sistemas de acceso a la información periodística

La participación ha sido un componente fundamental de internet desde sus inicios. Los grupos de discusión (newsgroups), listas de correos y tableros de mensajes (bulletin boards) fueron los predecesores de los foros, los weblogs y las comunidades colaborativas que florecen hoy. Estas primeras formas todavía prosperan, como un testamento de la necesidad de estar conectados a nuestras redes sociales.

El periodismo participativo florece en los medios sociales; la comunicación interpersonal que se desarrolla mediante el correo electrónico, el “chat”, los tableros de mensajes, foros; y en los medios colaborativos, formas hibridas de noticias, discusiones y comunidad.

Esta sección categoriza las maneras en las cuales el periodismo participativo toma forma. Algunas de estas continúan evolucionando, se fusionan y superponen. La lista, aunque generalizada, es un medio para describir los contornos de esa participación y las comunidades en las que reside.

2.1.4.1 Correo electrónico

Ésta, es quizás, la aplicación más conocida y extendida de la red de internet. Es un servicio de red que permite a los usuarios enviar y recibir mensajes rápidamente (también denominados mensajes electrónicos o cartas electrónicas) mediante sistemas de comunicación electrónicos.

Principalmente se usa este nombre para denominar al sistema que provee este servicio en internet, mediante el protocolo SMTP, aunque por extensión también puede verse aplicado a sistemas análogos que usen otras tecnologías.

Por medio de mensajes de correo electrónico se pueden enviar, no solamente texto, sino todo tipo de documentos digitales. Su eficiencia, conveniencia y bajo coto (con frecuencia nulo), están logrando que el correo electrónico desplace al correo ordinario para muchos usos habituales.

 

 

2.1.4.2 Wikis

Wiki-wiki significa «rápido» en hawaiano, aunque se redujo únicamente a Wiki. Es el nombre que el programador de Oregón, Ward Cunningham, escogió para su invento, en 1994: un sistema de creación, intercambio y revisión de información en la web, de forma fácil y automática. Desde entonces, Wiki se ha ganado las simpatías de los internautas, que lo usan para comunicación en grupos de trabajo, creación de enciclopedias o escritura colectiva de novelas.

Un Wiki o una Wiki es un sistema en línea, cuyas páginas pueden ser editadas por múltiples voluntarios a través del navegador Web. Los usuarios pueden crear, modificar o borrar un mismo texto que comparten.

Los textos o “páginas Wiki” tienen títulos únicos. Si se escribe el título de una “página Wiki”, en algún lugar del Wiki, entre dobles corchetes (x), esta palabra se convierte en un “enlace Web” a la página Wiki.

La aplicación de mayor peso, y a la que le debe su mayor fama hasta el momento, ha sido la creación de enciclopedias colectivas, género al que pertenece la Wikipedia. Existen muchas otras aplicaciones más cercanas a la coordinación de informaciones y acciones, o la puesta en común de conocimientos o textos dentro de grupos.

La mayor parte de los Wikis actuales conservan un historial de cambios que permite recuperar fácilmente cualquier estado anterior y ver que usuario hizo cada cambio, lo cual facilita enormemente el mantenimiento conjunto y el control de usuarios destructivos. Habitualmente, sin necesidad de una revisión previa, se actualiza el contenido que muestra la página Wiki editada.

2.1.4.3 IRC

IRC (Internet Relay Chat), es un protocolo de comunicación en tiempo real basado en texto, que permite debates entre dos o más personas (sujetos internautas).

Se diferencia de la mensajería instantánea en que los usuarios no deben acceder a establecer la comunicación de antemano, de tal forma que todos los usuarios que se encuentren en un canal pueden comunicarse entre sí, aunque no hayan tenido ningún contacto anterior.

Las conversaciones se desarrollan en los llamados canales de IRC, designados por nombres que habitualmente comienzan con el carácter # o & (este último sólo es utilizado en canales locales del servidor). Es un sistema de charlas ampliamente utilizado por personas de todo el mundo.

Los usuarios del IRC utilizan una aplicación cliente para conectarse con un servidor, en el que funciona una aplicación IRCd (IRC daemon o servidor de IRC) que gestionan los canales y las conversaciones murales.

2.1.4.4 P2P

Los programas de transferencia de archivos han ido creciendo y proliferando en Internet. El eMule ha sido uno de los más demandados y conocidos por los internautas, que estaban realizando Peer to Peer y posiblemente ni lo sabían.

Además del eMule, cabe destacar otros como el Kazza o el eDonkey, que también se hicieron fuertes hace unos años.

Peer to Peer es la voz inglesa del P2P, que significa de igual a igual. Se trata de un método de intercambio de archivos, ya sean aplicaciones, programas, fotos o vídeos. Estos intercambios se dan entre dos o más usuarios. Es decir, el P2P conecta los ordenadores directamente, por lo que un usuario puede conectarse al ordenador de otro, siempre y cuando ambos tengan el P2P. Para poder realizar la conexión entre dos usuarios, hace falta que ambos estén conectados a Internet y no necesitan ningún tipo de intermediario.

El origen del intercambio de archivos fue Arpanet, en 1969. En la actualidad, el término Peer to Peer se ha especializado un poco, y se refiere principalmente al intercambio de archivos del disco duro utilizando Internet.

La principal ventaja que presenta Peer to Peer es la creación de grandes bases de datos de manera gratuita, ya que todos los ordenadores conectados en línea pueden descargarse archivos de otros ordenadores también conectados. Con el aumento de la velocidad deconexión de Internet, propiciada por la instalación del ADSL, los programas de intercambio de archivos y la frecuencia de este tipo de operaciones aumenta de forma considerable. La calidad del ADSL es fundamental.

 
2.1.4.5 Sindicación

La redifusión (también llamada sindicación) es la distribución de contenidos informativos o lúdicos de un emisor original por otro, que adquiere los derechos mediante un contrato o licencia. Esta transmisión puede llevarse a cabo en cualquier medio de comunicación.

Redifusión web (o sindicación web) es el reenvío o reemisión de contenidos desde una fuente original (sitio web de origen) hasta otro sitio web de destino (receptor) que a su vez se convierte en emisor puesto que pone a disposición de sus usuarios los contenidos a los que en un principio sólo podían tener acceso los usuarios del sitio web de origen.

Habitualmente esta redifusión web se lleva a cabo mediante un contrato o licencia entre las partes: sitio web de origen y sitio web de destino.

Aun cuando “redifusión web” es el término correcto, los que utilizan jerga emplean con mayor frecuencia el término “sindicación web”, especialmente en lo referido a contenidos web, si bien la redifusión de contenidos puede llevarse a cabo en cualquier medio de comunicación.
La redifusión web se refiere a la redifusión o redistribución de contenido web mediante la cual parte de la información de una página web se pone a disposición de otros sitios web. Esto puede ser simplemente licenciando el contenido para que puedan usarlo otras personas; sin embargo, en general, la redifusión web se refiere a ofrecer un contenido informativo desde una fuente web originario de una página web para proporcionar a otras personas la actualización del mismo (por ejemplo, noticias de un periódico, nuevos artículos en una bitácora, los últimos comentarios en un foro, etcétera).

Las fuentes web suelen codificarse en XML, aunque el formato puede ser cualquier otro que pueda transportarse mediante HTTP, como son HTML o JavaScript. Las dos principales familias de formatos de redifusión web son RSS y Atom. Recientemente el término RSS (Sindicación Realmente Simple) se ha usado indistintamente para referirse también a cualquiera de los formatos de fuentes web, ya sea RSS o Atom.

Para leer una fuente web es necesario suscribirse mediante un agregador, una aplicación (de escritorio o basada en web) que muestra los contenidos nuevos publicados por el proveedor de la fuente web suscrita.

Esto tuvo su origen en las páginas de noticias y las bitácoras, pero cada vez se utiliza más para redifundir cualquier tipo de información. La redifusión web también está ganando importancia en el comercio en línea, ya que los internautas son reacios a proporcionar información personal con fines comerciales (como apuntarse a un boletín de noticias) y en cambio esperan la posibilidad de recibir información mediante la suscripción a una fuente web que permita la redifusión de sus contenidos.

2.2 Metabuscadores

La red está formada por más de un millón de páginas web, y se calcula que un buscador puede localizar aproximadamente un 15% del contenido de toda la red.

Para solucionar este difícil escollo, se crearon los Metabuscadores, conocidos en inglés como Meta Search Engines.

Permiten realizar una búsqueda en varios buscadores a la vez. Uno de sus inconvenientes, es que no suele ser posible precisar la búsqueda, ya que cada uno de los motores que engloba tiene sus propias características de búsqueda.

Su funcionamiento se concentra en el momento en el que el usuario lanza la búsqueda, donde el metabuscador la dirige a sus motores asociados, devolviendo una lista de resultados que se pueden ordenar según la relevancia. Esta relevancia re refleja al lado de cada enlace en forma de porcentaje.

Podemos encontrar distintos tipos de metabuscadores: aquellos que se pueden agrupar y los que no lo permiten.

Ejemplo de metabuscadores son:

  • Copernic.
  • Dogpile.
  • Vivismo.
  • Metacrawler C4.
  • Ixquick Metasearch.
  • Profusion.
2.2.1 Cómo funcionan

En sencillas palabras, un Metabuscador es una página web que busca la información que le solicitamos en varios buscadores convencionales al mismo tiempo, con lo que puede ahorrarnos tiempos de búsqueda de visitar y utilizar varios buscadores a la vez.

Cuando utilizas un Metabuscador no busca en sus propias bases de datos, sino que lo hacen en las bases de datos de buscadores.

La velocidad de búsqueda es a veces mayos que si utilizáramos directamente un buscador.

Ventajas:

* Se accede a una sola página Web para formular la búsqueda.
* Se necesita sólo conocer la interfaz de una página para la búsqueda.
* Se formula sólo una vez la estrategia de búsqueda.
* Los resultados permiten re-direccionar la búsqueda a otros buscadores.
* Se obtienen los resultados integrados, a partir de varios buscadores.

Desventajas: No se recuperan todos los resultados. No existe una estrategia de búsqueda común.

2.2.2 Estrategias de búsqueda

Fases del desarrollo de una búsqueda:

  • Análisis de la necesidad de información.
    ¿Qué buscamos?
  • Elección de la herramienta.
    Directorio, buscador o metabuscador.
  • Adaptación de la estrategia de consulta.
    Sinónimos, términos alternativos.
  • Evaluación de los resultados obtenidos.
    Autenticidad, pertinencia, actualidad y veracidad de la información.

Evaluación de los resultados obtenidos:

  • Análisis de la URL.
  • Verificación de la autoría de la página.
  • Evaluar los enlaces de la página que estamos evaluando.
  • Analizar las motivaciones políticas, personales, sociales o económicas de la publicación de la página.

Sentencias de búsqueda:

  • Sentencia simple (palabra clave).
  • Sentencia múltiple (palabras clave).
  • Búsqueda por frase “uso de comillas”.
  • Truncamiento (comodines *, $, # o ?)
  • Proximidad (NEAR, ADJ, FAR, BEFORE, FOLLOWED BY).
  • Operadores lógicos booleanos. (AND , OR, NOT)
  • Exactitud (+, -)

Operadores lógicos booleanos:

  • Establecen la relación entre los términos de búsqueda.
  • Tomados del álgebra del matemático inglés George Boole.
  • Permiten combinar los términos de búsqueda de acuerdo con nuestras necesidades.
  • Los operadores utilizados son: AND, OR, NOT.

Delimitadores:

  • domain:
    domainname

Encuentra páginas dentro del dominio especificado.

Utilice domain:mx para encontrar páginas de México, o utilice domain:edu para encontrar páginas de instituciones educativas.

  • host:
    hostname

Encuentra páginas en un servidor específico. La búsqueda host:www.salud.gob.mx encontrará páginas que se hallen en el ordenador salud.gob.mx, y host:www.hgm.salud.gob.mx encontrar páginas en el servidor llamado “hgm” dentro de salud.gob.mx

  • link:
    URLtext

Encuentra páginas con un vínculo a una página con el texto de URL especificado. Utilice link:www.unam.mx para encontrar todas las páginas con vínculos a unam.mx

  • title: text

Encuentra páginas que contienen la palabra o frase especificada en el título de la página (que aparece en la barra de título de la mayor parte de los navegadores). La búsqueda title:enfermedad de parkinson encontrar las páginas que contienen en el título la frase “enfermedad de parkinson”.

  • url: text 

Encuentra páginas con una palabra o frase específicas en la URL. Utilice url:cirugia para encontrar todas las páginas de todos los servidores que tengan la palabra cirugia en cualquier parte del nombre del host, la ruta, o el nombre del archivo.

Estrategias generales:

  • Escribir en minúsculas y sin acentos.
  • Usar varios recursos de búsqueda, y no ceñirse a uno exclusivamente para todos los tipos de búsqueda.
  • Elaborar y mantener una lista propia de buscadores, metabuscadores, directorios, guías y recursos más útiles.
  • Consultar a los bibliotecarios para recibir orientación sobre estrategias de búsqueda y localización de recursos de información en la Web, y para obtener documentos.
2.3 Internet profunda

Se conoce como Internet profunda o Internet Invisible. También es conocida como Deepnet, invisible Web, dark Web o hidden Web. El término se refiere a todo el contenido de Internet que no es parte del Internet Superficial, es decir, de las páginas indexadas por las arañas de los motores de búsqueda de Internet. Esto es debido a las limitaciones que tienen las arañas para acceder a todas las webs por distintos motivos.

La principal causa de la existencia de la Internet Profunda es la imposibilidad de los motores de búsqueda de encontrar o indexar el 100% de la información existente en Internet. Si los buscadores pudieran acceder a toda la información desaparecería, pero esto es imposible porque siempre existirán páginas privadas.

Estos son los distintos motivos por los que los buscadores son incapaces de indexar la Internet Profunda:

  • Páginas protegidas con contraseña
  • Bases de datos de bibliotecas y universidades
  • Documentos en formatos no indexables (Por ejemplo Pdf, Word)
  • Enciclopedias, diccionarios, revistas en las que para acceder a la información hay que interrogar a la base de datos (Por ejemplo RAE)

La Red oculta alberga unas 500 veces más información de la que es posible encontrar a través de una búsqueda simple. La mayoría de las bases de datos dinámicas han de rastrearse desde su propio sitio

Más de 60 millones de sitios web y más de 1.000 millones de páginas. Éste es el océano de información en el que tienen que bucear los internautas en busca de los datos que necesitan. A veces, cuando son peticiones muy generales, suelen encontrarse fácilmente. Otras, puede convertirse en una ardua tarea. Los buscadores generalistas más conocidos, como Google, Yahoo! y MSN, se han convertido en los guías vitales cuando no se conoce una dirección web específica. Y éstos, grandes conocedores del terreno en el que se mueven, realizan su cometido… aunque dentro de sus aún limitadas posibilidades.

Incluso los buscadores más famosos que nos abruman cada poco tiempo con la presentación de revolucionarias técnicas de localización tienen su punto débil. Este talón de Aquiles deja inaccesibles, para aquellos usuarios que únicamente utilicen estos buscadores, una inmensidad de datos que llega a superar hasta 500 veces el volumen de información que tienen registrado las herramientas de búsqueda generalistas, según un informe de la consultora Bright Planet. Es la llamada Red profunda.

2.3.1 Bases de datos

 

Una base de datos es un “almacén” que nos permite guardar grandes cantidades de información de forma organizada para que luego podamos encontrar y utilizar fácilmente.

El término de bases de datos fue escuchado por primera vez en 1963, en un simposio celebrado en California, USA. Una base de datos se puede definir como un conjunto de información relacionada que se encuentra agrupada ó estructurada.

Desde el punto de vista informático, la base de datos es un sistema formado por un conjunto de datos almacenados en discos que permiten el acceso directo a ellos y un conjunto de programas que manipulen ese conjunto de datos.

Cada base de datos se compone de una o más tablas que guarda un conjunto de datos. Cada tabla tiene una o más columnas y filas. Las columnas guardan una parte de la información sobre cada elemento que queramos guardar en la tabla, cada fila de la tabla conforma un registro.

Entre las principales características de los sistemas de base de datos podemos mencionar:

  • Independencia lógica y física de los datos.
  • Redundancia mínima.
  • Acceso concurrente por parte de múltiples usuarios.
  • Integridad de los datos.
  • Consultas complejas optimizadas.
  • Seguridad de acceso y auditoría.
  • Respaldo y recuperación.
  • Acceso a través de lenguajes de programación estándar.

Sistema de Gestión de Base de Datos (SGBD):

Los Sistemas de Gestión de Base de Datos (en inglés DataBase Management System) son un tipo de software muy específico, dedicado a servir de interfaz entre la base de datos, el usuario y las aplicaciones que la utilizan. Se compone de un lenguaje de definición de datos, de un lenguaje de manipulación de datos y de un lenguaje de consulta.

2.3.2 Data Minning

Data Mining, la extracción de información oculta y predecible de grandes bases de datos , es una poderosa tecnología nueva con gran potencial para ayudar a las compañías a concentrarse en la información más importante de sus Bases de Información (Data Warehouse). Las herramientas de Data Mining predicen futuras tendencias y comportamientos, permitiendo en los negocios tomar decisiones proactivas y conducidas por un conocimiento acabado de la información (knowledge-driven). Los análisis prospectivos automatizados ofrecidos por un producto así van más allá de los eventos pasados provistos por herramientas retrospectivas típicas de sistemas de soporte de decisión. Las herramientas de Data Mining pueden responder a preguntas de negocios que tradicionalmente consumen demasiado tiempo para poder ser resueltas y a los cuales los usuarios de esta información casi no están dispuestos a aceptar. Estas herramientas exploran las bases de datos en busca de patrones ocultos, encontrando información predecible que un experto no puede llegar a encontrar porque se encuentra fuera de sus expectativas.

Muchas compañías ya colectan y refinan cantidades masivas de datos. Las técnicas de Data Mining pueden ser implementadas rápidamente en plataformas ya existentes de software y hardware para acrecentar el valor de las fuentes de información existentes y pueden ser integradas con nuevos productos y sistemas pues son traídas en línea (on-line). Una vez que las herramientas de Data Mining fueron implementadas en computadoras cliente servidor de alta performance o de procesamiento paralelo, pueden analizar bases de datos masivas para brindar respuesta a preguntas tales como, “¿Cuáles clientes tienen más probabilidad de responder al próximo mailing promocional, y por qué? y presentar los resultados en formas de tablas, con gráficos, reportes, texto, hipertexto, etc.

  • Los Fundamentos del Data Mining

Las técnicas de Data Mining son el resultado de un largo proceso de investigación y desarrollo de productos. Esta evolución comenzó cuando los datos de negocios fueron almacenados por primera vez en computadoras, y continuó con mejoras en el acceso a los datos, y más recientemente con tecnologías generadas para permitir a los usuarios navegar a través de los datos en tiempo real. Data Mining toma este proceso de evolución más allá del acceso y navegación retrospectiva de los datos, hacia la entrega de información prospectiva y proactiva. Data Mining está listo para su aplicación en la comunidad de negocios porque está soportado por tres tecnologías que ya están suficientemente maduras:

  • Recolección masiva de datos
  • Potentes computadoras con multiprocesadores
  • Algoritmos de Data Mining

Las bases de datos comerciales están creciendo a un ritmo sin precedentes. Un reciente estudio del META GROUP sobre los proyectos de Data Warehouse encontró que el 19% de los que contestaron están por encima del nivel de los 50 Gigabytes, mientras que el 59% espera alcanzarlo en el segundo trimestre de 1997. En algunas industrias, tales como ventas al por menor (retail), estos números pueden ser aún mayores. MCI Telecommunications Corp. cuenta con una base de datos de 3 terabytes + 1 terabyte de índices y overhead corriendo en MVS sobre IBM SP2. La necesidad paralela de motores computacionales mejorados puede ahora alcanzarse de forma más costo – efectiva con tecnología de computadoras con multiprocesamiento paralelo. Los algoritmos de Data Mining utilizan técnicas que han existido por lo menos desde hace 10 años, pero que sólo han sido implementadas recientemente como herramientas maduras, confiables, entendibles que consistentemente son más performantes que métodos estadísticos clásicos.

En la evolución desde los datos de negocios a información de negocios, cada nuevo paso se basa en el previo. Por ejemplo, el acceso a datos dinámicos es crítico para las aplicaciones de navegación de datos (drill through applications), y la habilidad para almacenar grandes bases de datos es crítica para Data Mining.

Los componentes esenciales de la tecnología de Data Mining han estado bajo desarrollo por décadas, en áreas de investigación como estadísticas, inteligencia artificial y aprendizaje de máquinas. Hoy, la madurez de estas técnicas, junto con los motores de bases de datos relacionales de alta performance, hicieron que estas tecnologías fueran prácticas para los entornos de data warehouse actuales.

2.4 Web semántica

La Web Semántica es una web extendida, la misma está dotada de un mayor significado. Se desarrolla con lenguajes universales que permitirán a los usuarios encontrar respuestas a sus preguntas de una forma más rápida y sencilla gracias a la mejor estructuración de la información.

La misma permitirá, a los usuarios, delegar tareas a las herramientas de la Web Semánticas, las cuales podrán ser capaces de procesar la información.

La Web Semántica es una extensión de la World Wide Web en la que los contenidos de la Web pueden ser expresado mucho más que en un lenguaje natural, y también en un formato que pueda ser entendido, interpretado y usado por diferentes software, permitiéndoles buscar, compartir e integrar información más fácil.

La Web Semántica fue creada por Tim Berners-Lee, inventor de la WWW, URIs, HTTP y HTML. Existe un equipo en el World Wide Web Consortium (W3C) los cuales se dedican a mejorar, extender y estandarizar el sistema y muchos lenguajes, publicaciones y herramientas han sido ya desarrollados.

 

 

Entre los principales componentes de la Web Semántica podemos encontrar XML, XML Schema, RDF, RDF Schema y OWL. La descripción de OWL en inglés “Ontology Web Language” describe las funciones y relaciones de cada componente de la Web Semántica:

  • XML: Provee una sintaxis elemental para las estructuras de contenidos dentro de documentos.
  • XML Schema: Es un lenguaje para proporcionar y restringir la estructura y el contenido de los elementos contenidos dentro de documentos XML.
  • RDF: Es un lenguaje simple para expresar modelos de los datos, que refieren a los objetos “recursos” y a sus relaciones. Un modelo de RDF-based se puede representar en sintaxis de XML.
  • RDF Schema: Es un vocabulario para describir propiedades y clases de recursos.
  • OWL: Es un mecanismo para desarrollar temas o vocabularios específicos en los que podamos asociar esos recursos.
2.5 Comunidades virtuales temáticas

 

Una comunidad virtual, en definitiva, viene a ser la experiencia de compartir con otros que no vemos un espacio de comunicación. En este sentido, internet constituye una amplísima red de ordenadores que proporciona a cada uno de los usuarios individuales una voz en igualdad, o al menos una igualdad en la oportunidad para hablar, es decir, para participar en la comunidad. La atracción por la red y por la participación en este tipo de experiencias viene dada por la habilidad de la tecnología para legitimar públicamente la propia expresión y por la libertad que proporciona en relación a las barreras tradicionales del espacio y del tiempo.

Hemos visto que una comunidad se define en términos de comunicación; existe comunidad si se comparte y se intercambia información. De hecho, comunicación y comunidad tienen un origen en común. El término comunicaciónviene del latino “comunis” (común) o de comunicare (establecer una comunidad). Sin embargo y a pesar de que la comunicación sirve como base de la comunidad, ambos conceptos no deben ser confundidos. Uno puede comunicar con otro individuo sin considerar que la persona es miembro de la comunidad propia.

Pero en internet, puede ser más importante el sentimiento de comunidad que el de comunicación. Como señala Cherny (1999), este sentimiento de comunidad es esencial en la vida de las comunidades virtuales, ya que las comunidades virtuales requieren algo más que el mero acto de conexión, la clave está en la interacción humana a través de ordenadores.

Hay diferentes tipos de comunidades virtuales:

  • Foros de discusión
  • Correo electrónico y grupos de correo electrónico
  • Grupos de noticias
  • Video conferencias
  • Chat
  • Dimensión de usuario múltiple: es un sistema que permite a sus usuarios convertirse en el personaje que deseen y visitar mundos imaginarios en los que participar junto a otros individuos en juegos u otro tipo de actividad.
  • Gestores de contenido
  • Sistemas Per to Per (P2P)
  • BBS (sistema de tablón de anuncios)

Y además de las de carácter informático, existen las que se enlazan a través de otros medios:

  • Cajas de chat populares a inicio de los 90, consistían en una central telefónica en la que coincidían varios usuarios.
  • Comunidades de radioaficionados, tan antiguas como el mismo invento y vigentes aún en canales de radio abierta e intercambian información sin estar físicamente en el mismo sitio.
  • Televisivas, generalmente con un programa como anfitrión que concentra los contactos de los miembros e intercambia con ellos a través de la emisión televisiva.

Deja un comentario