Google quiere que el protocolo robots.txt sea un estándar de internet

  • 06-Jul-2019 10:00:08

La herramienta que convirtió a Google en un gigante de las búsquedas ahora puede convertirse en una parte fundamental de la web.

Google es lo que es hoy en día gracias a las búsquedas, por lo que vale la pena devolver el favor. La compañía está trabajando para que el protocolo que colabora con la indexación de sitios -más conocido como Protocolo de Exclusión de Robots, REP, o robots.txt- se convierta en un estándar de internet después de 25 años de haber sido creado.

Para ello, anunció que el código del parser en C++ que funciona como la base de Googlebot ahora está disponible en GitHub para todos. Así, una herramienta base de Google pasa a ser Open Source, como parte del plan para convertir el protocolo en estándar. El plan de la compañía al volver su herramienta de código abierto es eliminar la confusión con una sintaxis estandarizada para todos los motores de búsqueda.

En un comunicado en su sitio para Webmasters, Google anunció:

Queríamos ayudar a dueños de sitios web y desarrolladores a crear experiencias increíbles en la internet en vez de preocuparse sobre cómo controlar (web) crawlers.

Junto al autor original del protocolo, webmasters, y otros motores de búsqueda, hemos documentado cómo se usa el REP en la web moderna, y lo hemos enviado al IETF.

https://twitter.com/googlewmc/status/1145678549359222784

Por qué robots.txt es importante

El REP es una de las partes más importantes de la internet moderna. Es literalmente un archivo .txt que le dice a los robots que indexan sitios -como el Googlebot de Google- qué partes del sitio indexar y qué no. Todo esto con el fin de agregar sitios nuevos a motores de búsqueda de la forma más eficiente posible.

Asimismo, hay otros sitios que usan robots.txt como herramienta. Por ejemplo, la Wayback Machine archiva constantemente sitios en su base de datos para ser rescatados en varios años más.

Un robots.txt bien hecho informa correctamente a los robots que lo leen sobre qué contenido del sitio escanear, especialmente si es necesario excluir ciertas carpetas que pueden contener información confidencial de usuarios o cuentas.