MÉTODOS DE PROFUNDIZACIÓN DE DEEP WEB

- abril 18, 2020

Métodos de profundización de Deep web

Las arañas (web crawlers)

Cuando se ingresa a un buscador y se realiza una consulta, el buscador no recorre la totalidad de internet en busca de las posibles respuestas, sino que busca en su propia base de datos, que ha sido generada e indexada previamente. Se utiliza el término «araña web» (en inglés web crawler) o robots (por software, comúnmente llamados "bots") inteligentes que van haciendo búsquedas por enlaces de hipertexto de página en página, registrando la información ahí disponible.19

How to Build a Web Crawler from Scratch - What is web scraping ...

Cuando una persona realiza una consulta, el buscador no recorre la totalidad de internet en busca de las posibles respuestas, lo cual supondría una capacidad de reacción bastante lenta. Lo que hace es buscar en su propia base de datos, que ha sido generada e indizada previamente. En sus labores de búsqueda, indización y catalogación, utilizan las llamadas arañas (o robots inteligentes) que van saltando de una página web a otra siguiendo los enlaces de hipertexto y registran la información allí disponible.

[...] datos que se generan en tiempo real, como pueden ser valores de Bolsa, información del tiempo, horarios de trenes.

El contenido que existe dentro de la internet profunda es en muy raras ocasiones mostrado como resultado en los motores de búsqueda, ya que las «arañas» no rastrean bases de datos ni los extraen. Las arañas no pueden tener acceso a páginas protegidas con contraseñas, algunos desarrolladores que no desean que sus páginas sean encontradas insertan etiquetas especiales en el código para evitar que sea indexada. Las «arañas» son incapaces de mostrar páginas que no estén creadas en lenguaje HTML, ni tampoco puede leer enlaces que incluyen un signo de interrogación. Pero ahora sitios web no creados con HTML o con signos de interrogación están siendo indexados por algunos motores de búsqueda. Sin embargo, se calcula que incluso con estos buscadores más avanzados solo se logra alcanzar el 16 % de la información disponible en la internet profunda. Existen diferentes técnicas de búsqueda para extraer contenido de la internet profunda como librerías de bases de datos o simplemente conocer el URL al que quieres acceder y escribirlo manualmente.

Tor

Artículo principal: Tor (red de anonimato)

The Onion Router (abreviado como TOR) es un proyecto diseñado e implementado por la marina de los Estados Unidos lanzado el 20 de septiembre de 2002. Posteriormente fue patrocinado por la EFF (Electronic Frontier Foundation, una organización en defensa de los derechos digitales). Al presente (2019), subsiste como TOR Project, una organización sin ánimo de lucro galardonada en 2011 por la Free Software Foundation por permitir que millones de personas en el mundo tengan libertad de acceso y expresión en internet manteniendo su privacidad y anonimato.21

A diferencia de los navegadores de internet convencionales, Tor le permite a los usuarios navegar por la Web de forma anónima. Tor es descargado de 30 millones a 50 millones de veces al año, hay 0,8 millones de usuarios diarios de Tor y un incremento del 20 % solamente en 2013. Tor puede acceder a unos 6 500 sitios web ocultos.22

Cuando se ejecuta el software de Tor, para acceder a la internet profunda, los datos de la computadora se cifran en capas. El software envía los datos a través de una red de enlaces a otros equipos ―llamados en inglés «relays» (‘nodos’)― y lo va retransmitiendo quitando una capa antes de retransmitirlo de nuevo, esta trayectoria cambia con frecuencia. Tor cuenta con más de 4 000 retransmisiones y todos los datos cifrados pasan a través de ―por lo menos― tres de estos relays. Una vez que la última capa de cifrado es retirado por un nodo de salida, se conecta a la página web que desea visitar.

El contenido que puede ser encontrado dentro de la internet profunda es muy vasto, se encuentran por ejemplo, datos que se generan en tiempo real, como pueden ser valores de Bolsa, información del tiempo, horarios de trenes, bases de datos sobre agencias de inteligencia, disidentes políticos y contenidos criminales.19

Criptomoneda

Es posible encontrar sitios web que realicen transacciones ilegales (como drogas, armas, o incluso sicarios) en servidores exclusivos para usuarios de Tor. Es una práctica común utilizar monedas digitales como el Bitcoin21 que se intercambia a través de billeteras digitales entre el usuario y el vendedor, lo que hace que sea prácticamente imposible de rastrear.23

Vale la pena acotar que salvo por excepciones de algunos mercados como Silk Roads, The Trade Route, o Wall Street Market, la mayor parte del comercio en la deep web se constituye a base de ofertas engañosas y fraudes en general, existe una gran tendencia a satanizar a comunidades que buscan la libertad de expresión y el anonimato, en el mundo hispano-hablante esta tendencia fue originada por blogueros y youtubers que lejos de informar a las comunidades buscan crear escándalos amarillistas para obtener ingresos por conceptos de publicidad de sistemas como Adsense. En los últimos años se ha demostrado que el Bitcoin no es una criptomoneda segura cuando se trata de la confidencialidad de los datos de sus usuarios, motivo por el cual tendría poco sentido utilizarla en redes de anonimato como Tor, Freenet, o I2P, cuyos usuarios intentan alcanzar el clímax del anonimato, por lo cual no se puede descartar tampoco la intervención de empresas propagandistas que intentan aumentar el valor de mercado del bitcoin

Buscar este blog

TECNOLOGÍA DE LA INFORMACIÓN