Artículo actualizado por Joel Lee el 10/10/2017
Desbloquea ahora la hoja de trucos "Principales atajos de teclado de la Búsqueda de Google".
Esto lo inscribirá en nuestro boletín
Ingrese su Desbloqueo de correo electrónico Lea nuestra política de privacidadPara muchos, Google es internet. Es el punto de partida para encontrar nuevos sitios, y podría decirse que es el invento más importante desde Internet. Sin motores de búsqueda, el nuevo contenido web sería inaccesible para las masas.
¿Pero sabes cómo funcionan los motores de búsqueda? Cada motor de búsqueda tiene tres funciones principales: rastreo (para descubrir contenido), indexación (para rastrear y almacenar contenido) y recuperación (para buscar contenido relevante cuando los usuarios consultan el motor de búsqueda).
Rastreo
Rastreo es donde todo comienza: la adquisición de datos sobre un sitio web.
Esto implica escanear sitios y recopilar detalles sobre cada página: títulos, imágenes, palabras clave, otras páginas enlazadas, etc. Diferentes rastreadores también pueden buscar diferentes detalles, como diseños de página, dónde se colocan los anuncios, si los enlaces están repletos, etc.
Pero, ¿cómo se rastrea un sitio web? Un robot automatizado (llamado "araña") visita página tras página lo más rápido posible, usando enlaces de página para encontrar dónde ir a continuación. Incluso en los primeros días, las arañas de Google podían leer varios cientos de páginas por segundo. Hoy en día, está en los miles.
Cuando un rastreador web visita una página, recopila todos los enlaces de la página y los agrega a su lista de páginas siguientes para visitar. Va a la página siguiente en su lista, recopila los enlaces en esa página y repite. Los rastreadores web también revisan las páginas pasadas de vez en cuando para ver si ocurrieron cambios.
Esto significa que cualquier sitio vinculado desde un sitio indexado eventualmente será rastreado. Algunos sitios se rastrean con más frecuencia y otros se rastrean a mayor profundidad, pero a veces un rastreador puede darse por vencido si la jerarquía de páginas de un sitio es demasiado compleja.
Una forma de entender cómo funciona un rastreador web es crear uno usted mismo. Hemos escrito un tutorial sobre cómo crear un rastreador web básico en PHP, así que échale un vistazo si tienes alguna experiencia en programación.
Tenga en cuenta que las páginas se pueden marcar como "noindex", que es como pedirle a los motores de búsqueda que salten su indexación. Las partes no indexadas de Internet se conocen como la "web profunda". ¿Qué es la Web profunda? Es más importante de lo que piensas ¿Qué es la Web profunda? Es más importante de lo que piensas Tanto la web profunda como la web oscura suenan aterradoras y nefastas, pero los peligros han sido exagerados. ¡Esto es lo que realmente hacen y cómo puedes acceder a ellos tú mismo! Lea más, y algunos sitios, como los alojados en la red TOR, no pueden ser indexados por los motores de búsqueda. (¿Qué es el enrutamiento de TOR y cebolla?) ¿Qué es el enrutamiento de cebolla, exactamente? [Explicaciones de MakeUseOf] ¿Qué es el enrutamiento de cebolla, exactamente? [MakeUseOf Explains] Privacidad en Internet El anonimato fue una de las mejores características de Internet en su juventud (o uno de sus peores características, dependiendo de a quién le preguntes). Dejando de lado los tipos de problemas que surgen ... Leer más)
Indexación
La indexación es cuando los datos de un rastreo se procesan y se colocan en una base de datos.
Imagine hacer una lista de todos los libros que posee, sus editores, sus autores, sus géneros, sus recuentos de páginas, etc. Arrastrarse es cuando revisa cada libro mientras indexa cuando los registra en su lista.
Ahora imagine que no es solo una sala llena de libros, sino de todas las bibliotecas del mundo. Es una versión en pequeña escala de lo que hace Google, que almacena todos estos datos en vastos centros de datos con miles de petabytes en unidades Explicación de tamaños de memoria: gigabytes, terabytes y petabytes en términos de Layman Explicación de los tamaños de memoria: gigabytes, terabytes y petabytes en Términos de Layman Es fácil ver que 500 GB es más de 100 GB. ¿Pero cómo se comparan los diferentes tamaños? ¿Qué es un gigabyte a un terabyte? ¿Dónde encaja un petabyte? ¡Vamos a aclararlo! Lee mas .
Aquí hay un vistazo dentro de uno de los centros de datos de búsqueda de Google:
Recuperación y clasificación
La recuperación se produce cuando el motor de búsqueda procesa su consulta de búsqueda y le devuelve las páginas más relevantes que coinciden con su consulta.
La mayoría de los motores de búsqueda se diferencian a través de sus métodos de recuperación: utilizan diferentes criterios para seleccionar y elegir qué páginas se ajustan mejor a lo que desea encontrar. Es por eso que los resultados de búsqueda varían entre Google y Bing, y por qué Wolfram Alpha es tan útil. 10 Usos geniales de Wolfram Alpha si lees y escribes en inglés 10 Usos geniales de Wolfram Alpha si lees y escribes en inglés Tomaste alfa un poco de tiempo para entender a Wolfram Alpha y las consultas que utiliza para expresar esos resultados. Tienes que sumergirte profundamente en Wolfram Alpha para realmente explotarlo ... Leer más.
Los algoritmos de clasificación comprueban su consulta de búsqueda contra miles de millones de páginas para determinar la relevancia de cada uno. Las empresas protegen sus algoritmos de clasificación como secretos industriales patentados debido a su complejidad. Un mejor algoritmo se traduce en una mejor experiencia de búsqueda.
Tampoco quieren que los creadores web jueguen contra el sistema y suban injustamente a la cima de los resultados de búsqueda. Si la metodología interna de un motor de búsqueda llegara a salir, todo tipo de personas seguramente explotarían ese conocimiento en detrimento de buscadores como tú y como yo.
La explotación del motor de búsqueda es posible, por supuesto, pero ya no es tan fácil.
Originalmente, los motores de búsqueda clasificaban los sitios por la frecuencia con la que las palabras clave aparecían en una página, lo que conducía a "relleno de palabras clave", lo que llenaba las páginas de tonterías con palabras clave pesadas.
Luego vino el concepto de importancia del enlace: los motores de búsqueda valoraban los sitios con muchos enlaces entrantes porque interpretaban la popularidad del sitio como relevancia. Pero esto llevó a vincular el correo basura en toda la web. Hoy en día, los motores de búsqueda ponderan los enlaces según la "autoridad" del sitio de enlace. Los motores de búsqueda le dan más valor a los enlaces de una agencia gubernamental que a los enlaces de un directorio de enlaces.
Hoy, los algoritmos de clasificación están envueltos en más misterio que nunca, y la "optimización de motores de búsqueda" Demystify SEO: 5 Guías de optimización de motores de búsqueda que ayudan a comenzar a desmitificar SEO: 5 Guías de optimización de motores de búsqueda que ayudan a comenzar El dominio del motor de búsqueda requiere conocimiento y experiencia y muchas pruebas y errores. Puede comenzar a aprender los fundamentos y evitar los errores comunes de SEO fácilmente con la ayuda de muchas guías de SEO disponibles en la Web. Leer más no es tan importante. Los buenos rankings en los motores de búsqueda ahora provienen de contenido de alta calidad y excelentes experiencias de usuario.
¿Qué sigue para los motores de búsqueda?
Ah, ahora hay una pregunta interesante. La respuesta es "semántica": el significado del contenido de la página. Puede leer más acerca de nuestra visión general del marcado semántico y su impacto futuro Qué es el marcado semántico y cómo cambiará Internet para siempre [Tecnología explicada] Qué es el marcado semántico y cómo cambiará Internet para siempre [Tecnología explicada] Leer más.
Pero aquí está la esencia de eso.
En este momento, puede buscar "cookies sin gluten", pero los resultados pueden dar como resultado recetas de cookies sin gluten. En su lugar, puede encontrar recetas de galletas regulares que dicen "Esta receta no es libre de gluten". Tiene las palabras clave correctas, pero el significado es incorrecto.
Con la semántica, puede buscar recetas de galletas y luego eliminar ciertos ingredientes: harina, nueces, etc. También puede reducir los resultados a solo recetas con tiempos de preparación de menos de 30 minutos y revisar puntajes de 4/5 o más. Eso sería genial, ¿verdad? ¡Hacia allí nos dirigimos!
Todavía está confundido acerca de cómo funcionan los motores de búsqueda? Vea cómo Google explica el proceso:
Si le parece interesante, también puede obtener información sobre cómo funcionan los motores de búsqueda de imágenes .
Crédito de la imagen: prykhodov / Depositphotos