Amazon Web Services investiga si Perplexity ejecuta 'web scrapping' para entrenar su IA

Amazon Web Services investiga si Perplexity ejecuta ‘web scrapping’ para entrenar su IA

Autor admin
Publicado en julio 1, 2024

Amazon Web Services (AWS) ha anunciado que ha comenzado una investigación sobre el funcionamiento de Perplexity -que emplea sus servidores- para conocer si esta empresa ejecuta la técnica de ‘web scrapping’ para entrenar sus modelos de Inteligencia Artificial (IA).

El también conocido como raspado de datos es un proceso mediante el cual se recopilan contenidos de páginas web mediante un ‘software’ que extrae el código HTML de estos sitios para filtrar la información y almacenarla, lo que se compara con el proceso automático de copiado y pegado.

El desarrollador Robb Knight y Wired habrían descubierto recientemente que la ‘startup’ de búsquedas con IA Perplexity habría violado el conocido como Protocolo de Exclusión de Robots de ciertas páginas web y ejecutado esta técnica para entrenar sus modelos de IA.

Este Protocolo responde a una norma web que consiste en colocar un archivo de texto sin formato (robots.txt) en un dominio para señalar a qué páginas no deben acceder los robots y rastradores automatizados, tal y como explica dicho medio.

En base a estas acusaciones, Amazon Web Services ha dado comienzo a una investigación para determinar si Perplexity, que emplea AWS para entranar su IA, está infringiendo las normas y ejecutando ‘web scrapping’ en sitios web que intentaban impedírselo.

Así lo ha confirmado a Wired un portavoz de AWS, que ha recordado que en sus términos prohíbe a sus clientes usar sus servicios para cualquier actividad ilegal y que estos son responsables de cumplir con sus condiciones “y todas las leyes aplicables”.

Desde la ‘startup’ han indicado que Perplexity “respeta robots.txt” y que los servicios que controla “no realizan un rastreo de ninguna forma que infrinja las condiciones de servicio de AWS”, en palabras de la portavoz Sara Platnick.

Esta, no obstante, ha explicado que su ‘bot’ ignorará el archivo robots.txt cuando un usuario introduzca una url en su consulta, un caso de uso “no frecuente”. “Cuando un usuario indica una url específica no desencadena un comportamiento de rastreo” sino que “el agente actúa en nombre del usuario para recuperar la url. Funciona igual que si este fuera a una página, copiara el tecto del artículo y después lo pegara en el sistema”, ha dicho.

En este sentido, Wired ha subrayado que, según la descripción de la portavoz, se confirman que las investigaciones que ha llevado a cabo son veraces y que su ‘chatbot’ ignora robots.txt en ciertos casos para recopilar información de forma no autorizada.

Revisión del carro

Amazon Web Services investiga si Perplexity ejecuta ‘web scrapping’ para entrenar su IA

Me gusta esto:

Relacionado

admin

Entrada siguiente

La avalancha no arrasó con la fe de los damnificados en San Vicente de Chucurí

Valeria Díaz, el mejor Icfes de Colombia, sueña con estudiar ingeniería biomédica en la UIS

El Vampiro del 55: los crímenes que aterrorizaron a Bucaramanga

Revisión del carro

Amazon Web Services investiga si Perplexity ejecuta ‘web scrapping’ para entrenar su IA

Comparte esto:

Me gusta esto:

Relacionado

admin

Entrada siguiente

Entradas relacionadas

La avalancha no arrasó con la fe de los damnificados en San Vicente de Chucurí

Valeria Díaz, el mejor Icfes de Colombia, sueña con estudiar ingeniería biomédica en la UIS

El Vampiro del 55: los crímenes que aterrorizaron a Bucaramanga