Archivo | 12:27 pm

2.3.2 Data Minning.

13 Oct

Data Mining, la extracción de información oculta y predecible de grandes bases de datos , es una poderosa tecnología nueva con gran potencial para ayudar a las compañías a concentrarse en la información más importante de sus Bases de Información (Data Warehouse). Las herramientas de Data Mining predicen futuras tendencias y comportamientos, permitiendo en los negocios tomar decisiones proactivas y conducidas por un conocimiento acabado de la información (knowledge-driven). Los análisis prospectivos automatizados ofrecidos por un producto así van más allá de los eventos pasados provistos por herramientas retrospectivas típicas de sistemas de soporte de decisión. Las herramientas de Data Mining pueden responder a preguntas de negocios que tradicionalmente consumen demasiado tiempo para poder ser resueltas y a los cuales los usuarios de esta información casi no están dispuestos a aceptar. Estas herramientas exploran las bases de datos en busca de patrones ocultos, encontrando información predecible que un experto no puede llegar a encontrar porque se encuentra fuera de sus expectativas.

Muchas compañías ya colectan y refinan cantidades masivas de datos. Las técnicas de Data Mining pueden ser implementadas rápidamente en plataformas ya existentes de software y hardware para acrecentar el valor de las fuentes de información existentes y pueden ser integradas con nuevos productos y sistemas pues son traídas en línea (on-line). Una vez que las herramientas de Data Mining fueron implementadas en computadoras cliente servidor de alta performance o de procesamiento paralelo, pueden analizar bases de datos masivas para brindar respuesta a preguntas tales como, “¿Cuáles clientes tienen más probabilidad de responder al próximo mailing promocional, y por qué? y presentar los resultados en formas de tablas, con gráficos, reportes, texto, hipertexto, etc.

  • Los Fundamentos del Data Mining

Las técnicas de Data Mining son el resultado de un largo proceso de investigación y desarrollo de productos. Esta evolución comenzó cuando los datos de negocios fueron almacenados por primera vez en computadoras, y continuó con mejoras en el acceso a los datos, y más recientemente con tecnologías generadas para permitir a los usuarios navegar a través de los datos en tiempo real. Data Mining toma este proceso de evolución más allá del acceso y navegación retrospectiva de los datos, hacia la entrega de información prospectiva y proactiva. Data Mining está listo para su aplicación en la comunidad de negocios porque está soportado por tres tecnologías que ya están suficientemente maduras:

  • Recolección masiva de datos
  • Potentes computadoras con multiprocesadores
  • Algoritmos de Data Mining

Las bases de datos comerciales están creciendo a un ritmo sin precedentes. Un reciente estudio del META GROUP sobre los proyectos de Data Warehouse encontró que el 19% de los que contestaron están por encima del nivel de los 50 Gigabytes, mientras que el 59% espera alcanzarlo en el segundo trimestre de 1997. En algunas industrias, tales como ventas al por menor (retail), estos números pueden ser aún mayores. MCI Telecommunications Corp. cuenta con una base de datos de 3 terabytes + 1 terabyte de índices y overhead corriendo en MVS sobre IBM SP2. La necesidad paralela de motores computacionales mejorados puede ahora alcanzarse de forma más costo – efectiva con tecnología de computadoras con multiprocesamiento paralelo. Los algoritmos de Data Mining utilizan técnicas que han existido por lo menos desde hace 10 años, pero que sólo han sido implementadas recientemente como herramientas maduras, confiables, entendibles que consistentemente son más performantes que métodos estadísticos clásicos.

En la evolución desde los datos de negocios a información de negocios, cada nuevo paso se basa en el previo. Por ejemplo, el acceso a datos dinámicos es crítico para las aplicaciones de navegación de datos (drill through applications), y la habilidad para almacenar grandes bases de datos es crítica para Data Mining.

Los componentes esenciales de la tecnología de Data Mining han estado bajo desarrollo por décadas, en áreas de investigación como estadísticas, inteligencia artificial y aprendizaje de máquinas. Hoy, la madurez de estas técnicas, junto con los motores de bases de datos relacionales de alta performance, hicieron que estas tecnologías fueran prácticas para los entornos de data warehouse actuales.

Anuncios

2.3.1 Bases de datos

13 Oct

 

Una base de datos es un “almacén” que nos permite guardar grandes cantidades de información de forma organizada para que luego podamos encontrar y utilizar fácilmente.

El término de bases de datos fue escuchado por primera vez en 1963, en un simposio celebrado en California, USA. Una base de datos se puede definir como un conjunto de información relacionada que se encuentra agrupada ó estructurada.

Desde el punto de vista informático, la base de datos es un sistema formado por un conjunto de datos almacenados en discos que permiten el acceso directo a ellos y un conjunto de programas que manipulen ese conjunto de datos.

Cada base de datos se compone de una o más tablas que guarda un conjunto de datos. Cada tabla tiene una o más columnas y filas. Las columnas guardan una parte de la información sobre cada elemento que queramos guardar en la tabla, cada fila de la tabla conforma un registro.

Entre las principales características de los sistemas de base de datos podemos mencionar:

  • Independencia lógica y física de los datos.
  • Redundancia mínima.
  • Acceso concurrente por parte de múltiples usuarios.
  • Integridad de los datos.
  • Consultas complejas optimizadas.
  • Seguridad de acceso y auditoría.
  • Respaldo y recuperación.
  • Acceso a través de lenguajes de programación estándar.

Sistema de Gestión de Base de Datos (SGBD):

Los Sistemas de Gestión de Base de Datos (en inglés DataBase Management System) son un tipo de software muy específico, dedicado a servir de interfaz entre la base de datos, el usuario y las aplicaciones que la utilizan. Se compone de un lenguaje de definición de datos, de un lenguaje de manipulación de datos y de un lenguaje de consulta.

 

2.3 Internet profunda

13 Oct

Se conoce como Internet profunda o Internet Invisible. También es conocida como Deepnet, invisible Web, dark Web o hidden Web. El término se refiere a todo el contenido de Internet que no es parte del Internet Superficial, es decir, de las páginas indexadas por las arañas de los motores de búsqueda de Internet. Esto es debido a las limitaciones que tienen las arañas para acceder a todas las webs por distintos motivos.

La principal causa de la existencia de la Internet Profunda es la imposibilidad de los motores de búsqueda de encontrar o indexar el 100% de la información existente en Internet. Si los buscadores pudieran acceder a toda la información desaparecería, pero esto es imposible porque siempre existirán páginas privadas.

Estos son los distintos motivos por los que los buscadores son incapaces de indexar la Internet Profunda:

  • Páginas protegidas con contraseña
  • Bases de datos de bibliotecas y universidades
  • Documentos en formatos no indexables (Por ejemplo Pdf, Word)
  • Enciclopedias, diccionarios, revistas en las que para acceder a la información hay que interrogar a la base de datos (Por ejemplo RAE)

La Red oculta alberga unas 500 veces más información de la que es posible encontrar a través de una búsqueda simple. La mayoría de las bases de datos dinámicas han de rastrearse desde su propio sitio

Más de 60 millones de sitios web y más de 1.000 millones de páginas. Éste es el océano de información en el que tienen que bucear los internautas en busca de los datos que necesitan. A veces, cuando son peticiones muy generales, suelen encontrarse fácilmente. Otras, puede convertirse en una ardua tarea. Los buscadores generalistas más conocidos, como Google, Yahoo! y MSN, se han convertido en los guías vitales cuando no se conoce una dirección web específica. Y éstos, grandes conocedores del terreno en el que se mueven, realizan su cometido… aunque dentro de sus aún limitadas posibilidades.

Incluso los buscadores más famosos que nos abruman cada poco tiempo con la presentación de revolucionarias técnicas de localización tienen su punto débil. Este talón de Aquiles deja inaccesibles, para aquellos usuarios que únicamente utilicen estos buscadores, una inmensidad de datos que llega a superar hasta 500 veces el volumen de información que tienen registrado las herramientas de búsqueda generalistas, según un informe de la consultora Bright Planet. Es la llamada Red profunda.

2.2.2 Estrategias de búsqueda

13 Oct

Fases del desarrollo de una búsqueda:

  • Análisis de la necesidad de información.
    ¿Qué buscamos?
  • Elección de la herramienta.
    Directorio, buscador o metabuscador.
  • Adaptación de la estrategia de consulta.
    Sinónimos, términos alternativos.
  • Evaluación de los resultados obtenidos.
    Autenticidad, pertinencia, actualidad y veracidad de la información.

Evaluación de los resultados obtenidos:

  • Análisis de la URL.
  • Verificación de la autoría de la página.
  • Evaluar los enlaces de la página que estamos evaluando.
  • Analizar las motivaciones políticas, personales, sociales o económicas de la publicación de la página.

Sentencias de búsqueda:

  • Sentencia simple (palabra clave).
  • Sentencia múltiple (palabras clave).
  • Búsqueda por frase “uso de comillas”.
  • Truncamiento (comodines *, $, # o ?)
  • Proximidad (NEAR, ADJ, FAR, BEFORE, FOLLOWED BY).
  • Operadores lógicos booleanos. (AND , OR, NOT)
  • Exactitud (+, -)

Operadores lógicos booleanos:

  • Establecen la relación entre los términos de búsqueda.
  • Tomados del álgebra del matemático inglés George Boole.
  • Permiten combinar los términos de búsqueda de acuerdo con nuestras necesidades.
  • Los operadores utilizados son: AND, OR, NOT.

Delimitadores:

  • domain:
    domainname

Encuentra páginas dentro del dominio especificado.

Utilice domain:mx para encontrar páginas de México, o utilice domain:edu para encontrar páginas de instituciones educativas.

  • host:
    hostname

Encuentra páginas en un servidor específico. La búsqueda host:www.salud.gob.mx encontrará páginas que se hallen en el ordenador salud.gob.mx, y host:www.hgm.salud.gob.mx encontrar páginas en el servidor llamado “hgm” dentro de salud.gob.mx

  • link:
    URLtext

Encuentra páginas con un vínculo a una página con el texto de URL especificado. Utilice link:www.unam.mx para encontrar todas las páginas con vínculos a unam.mx

  • title: text

Encuentra páginas que contienen la palabra o frase especificada en el título de la página (que aparece en la barra de título de la mayor parte de los navegadores). La búsqueda title:enfermedad de parkinson encontrar las páginas que contienen en el título la frase “enfermedad de parkinson”.

  • url: text 

Encuentra páginas con una palabra o frase específicas en la URL. Utilice url:cirugia para encontrar todas las páginas de todos los servidores que tengan la palabra cirugia en cualquier parte del nombre del host, la ruta, o el nombre del archivo.

Estrategias generales:

  • Escribir en minúsculas y sin acentos.
  • Usar varios recursos de búsqueda, y no ceñirse a uno exclusivamente para todos los tipos de búsqueda.
  • Elaborar y mantener una lista propia de buscadores, metabuscadores, directorios, guías y recursos más útiles.
  • Consultar a los bibliotecarios para recibir orientación sobre estrategias de búsqueda y localización de recursos de información en la Web, y para obtener documentos.

2.2.1 Cómo funcionan

13 Oct

En sencillas palabras, un Metabuscador es una página web que busca la información que le solicitamos en varios buscadores convencionales al mismo tiempo, con lo que puede ahorrarnos tiempos de búsqueda de visitar y utilizar varios buscadores a la vez.

Cuando utilizas un Metabuscador no busca en sus propias bases de datos, sino que lo hacen en las bases de datos de buscadores.

La velocidad de búsqueda es a veces mayos que si utilizáramos directamente un buscador.

Ventajas:

* Se accede a una sola página Web para formular la búsqueda.
* Se necesita sólo conocer la interfaz de una página para la búsqueda.
* Se formula sólo una vez la estrategia de búsqueda.
* Los resultados permiten re-direccionar la búsqueda a otros buscadores.
* Se obtienen los resultados integrados, a partir de varios buscadores.

Desventajas: No se recuperan todos los resultados. No existe una estrategia de búsqueda común.

2.2 Metabuscadores

13 Oct

La red está formada por más de un millón de páginas web, y se calcula que un buscador puede localizar aproximadamente un 15% del contenido de toda la red.

Para solucionar este difícil escollo, se crearon los Metabuscadores, conocidos en inglés como Meta Search Engines.

Permiten realizar una búsqueda en varios buscadores a la vez. Uno de sus inconvenientes, es que no suele ser posible precisar la búsqueda, ya que cada uno de los motores que engloba tiene sus propias características de búsqueda.

Su funcionamiento se concentra en el momento en el que el usuario lanza la búsqueda, donde el metabuscador la dirige a sus motores asociados, devolviendo una lista de resultados que se pueden ordenar según la relevancia. Esta relevancia re refleja al lado de cada enlace en forma de porcentaje.

Podemos encontrar distintos tipos de metabuscadores: aquellos que se pueden agrupar y los que no lo permiten.

Ejemplo de metabuscadores son:

  • Copernic.
  • Dogpile.
  • Vivismo.
  • Metacrawler C4.
  • Ixquick Metasearch.
  • Profusion.

2.1.4.5 Sindicación

13 Oct

La redifusión (también llamada sindicación) es la distribución de contenidos informativos o lúdicos de un emisor original por otro, que adquiere los derechos mediante un contrato o licencia. Esta transmisión puede llevarse a cabo en cualquier medio de comunicación.

Redifusión web (o sindicación web) es el reenvío o reemisión de contenidos desde una fuente original (sitio web de origen) hasta otro sitio web de destino (receptor) que a su vez se convierte en emisor puesto que pone a disposición de sus usuarios los contenidos a los que en un principio sólo podían tener acceso los usuarios del sitio web de origen.

Habitualmente esta redifusión web se lleva a cabo mediante un contrato o licencia entre las partes: sitio web de origen y sitio web de destino.

Aun cuando “redifusión web” es el término correcto, los que utilizan jerga emplean con mayor frecuencia el término “sindicación web”, especialmente en lo referido a contenidos web, si bien la redifusión de contenidos puede llevarse a cabo en cualquier medio de comunicación.
La redifusión web se refiere a la redifusión o redistribución de contenido web mediante la cual parte de la información de una página web se pone a disposición de otros sitios web. Esto puede ser simplemente licenciando el contenido para que puedan usarlo otras personas; sin embargo, en general, la redifusión web se refiere a ofrecer un contenido informativo desde una fuente web originario de una página web para proporcionar a otras personas la actualización del mismo (por ejemplo, noticias de un periódico, nuevos artículos en una bitácora, los últimos comentarios en un foro, etcétera).

Las fuentes web suelen codificarse en XML, aunque el formato puede ser cualquier otro que pueda transportarse mediante HTTP, como son HTML o JavaScript. Las dos principales familias de formatos de redifusión web son RSS y Atom. Recientemente el término RSS (Sindicación Realmente Simple) se ha usado indistintamente para referirse también a cualquiera de los formatos de fuentes web, ya sea RSS o Atom.

Para leer una fuente web es necesario suscribirse mediante un agregador, una aplicación (de escritorio o basada en web) que muestra los contenidos nuevos publicados por el proveedor de la fuente web suscrita.

Esto tuvo su origen en las páginas de noticias y las bitácoras, pero cada vez se utiliza más para redifundir cualquier tipo de información. La redifusión web también está ganando importancia en el comercio en línea, ya que los internautas son reacios a proporcionar información personal con fines comerciales (como apuntarse a un boletín de noticias) y en cambio esperan la posibilidad de recibir información mediante la suscripción a una fuente web que permita la redifusión de sus contenidos.