Menú
ES
AdGuard VPN Blog Copilot, el asistente de Github, demandado por piratería de código abierto

Copilot, el asistente de Github, demandado por piratería de código abierto

“Lo tuyo es mío, lo mío es mío también". Al parecer, ese fue el principio que guió a Microsoft, GitHub y OpenAI durante el desarrollo de Copilot, un asistente de programación basado en Inteligencia Artificial. Al menos, eso es lo que implica una demanda contra las tres empresas.

Lanzado en junio de 2021, Copilot es presentado por GitHub como una "Inteligencia Artificial de programación " capaz de "sugerir códigos y funciones enteras en tiempo real ". Cuando recibe una pregunta en lenguaje natural, Copilot responde con bloques de código. Puede hacerlo gracias a su otro producto de IA, Codex, desarrollado por OpenAI e integrado en Copilot, disponible para programadores en GitHub a cambio de una suscripción de 10 dólares al mes, o 100 dólares al año.

OpenAI entrenó a Copilot utilizando códigos de repositorios públicos de GitHub. Por mucho que Microsoft afirme que la herramienta fue entrenada a partir de "miles de millones de líneas de código", ella no menciona explícitamente cómo obtuvo acceso a este verdadero tesoro. Según la demanda, encabezada por el programador y abogado Matthew Butterick, ahí es donde radica el problema.

OpenAI está acusado de violar los términos de los programas de código abierto al desarrollar Copilot

El argumento es que la herramienta viola las licencias de código abierto de los usuarios de GitHub, que Microsoft prometió respetar tras comprar la plataforma en 2018. Más concretamente, la demanda acusa a Copilot de no mostrar información sobre derechos de autor ni indicar que sus resultados son derivados, por lo que afirma que se "consiguen mediante la piratería de software a una escala sin precedentes". La demanda alega además que Copilot "a menudo se limita a reproducir código que puede encontrarse en repositorios o licencias de código abierto".

OpenAI argumenta que Codex no debería estar sujeto a las condiciones de la licencia porque se trata de un "uso justo transformativo" La empresa alega que el código fuente abierto se utilizó como datos de entrenamiento*"con fines de investigación "* y nunca se pretendió que se incluyera de forma "literal" en los resultados. La empresa incluso afirma que más del 99 % de los resultados del Codex “no coinciden con los datos de entrenamiento”.

Pero los demandantes afirman que esto es exactamente lo que está sucediendo.

Por ejemplo, la denuncia menciona el libro Eloquent Javascript, de Marijn Haverbeke, que tiene la licencia Creative Commons sin fines comerciales. El código del libro también tiene la licencia del MIT. Según los términos de esta licencia, Copilot habría tenido que incluir los derechos de autor en una nota y pedir permiso. Eso se debe a que Copilot, por diseño, no fue capacitado para respetar ningún tipo de términos y condiciones de uso, afirma la demanda. Esto explica en detalle cómo el Codex copia fuentes protegidas por derechos de autor directa y efectivamente, incluido el libro de Haverbeke.

La demanda alega que el asistente de programación de GitHub recibe código "directamente" de fuentes protegidas por derechos de autor, sin respetar los términos de la licencia

Screenshot: Extracto de la demanda que detalla cómo el Codex supuestamente copia “directamente de fuentes protegidas por derechos de autor”.

No es solo Butterick quien ha estado señalando la premisa cuestionable sobre la cual se construyó Copilot. El mes pasado, el desarrollador y profesor de Ciencias de la Computación en A&M Texas, Tim Davis, llegó básicamente a la misma conclusión. Davis tuiteó que Copilot copió "grandes cantidades" de su código protegido por derechos de autor sin dar crédito alguno. Además, el asistente basado en IA parecía reconocer que estaba copiando el código de Davis. El investigador declaró que cuando pidió a Copilot que produjera código "al estilo de Tim Davis", recibió una versión "ligeramente alterada" de su código. El inventor de Copilot, Alex Graveley, minimizó la importancia de las similitudes y afirmó que el código era “similar pero diferente”.

Aunque existe un eterno debate sobre los límites entre plagio e inspiración, la demanda afirma que Copilot se acerca más a lo primero. A pesar de las afirmaciones de la empresa, "en la práctica... el resultado suele ser una reproducción casi idéntica del código de los datos de entrenamiento", afirma la demanda.

Los demandantes también impugnaron el argumento de OpenAI de que utilizar código fuente abierto para crear software comercial constituye "uso justo" y beneficia a la comunidad. Este uso "no es justo, permisible ni justificable", dice la demanda, que acusa a Copilot de "reunir una gran cantidad de código fuente abierto disponible para todo el mundo y ponerlos dentro de un muro de pago controlado por GitHub".

Butterick cree que una herramienta como Copilot es una amenaza para la comunidad que publica código abierto

En otra publicación de blog, Butterick describe a Copilot como "nada más que una cómoda interfaz alternativa para acceder a una gran colección de código fuente abierto". Y como tal, los suscriptores de Copilot pueden violar las normas de las licencias de código fuente abierto de los desarrolladores sin saberlo. Pero, según Butterick, el problema es aún más profundo. Al servir de intermediario entre los autores de código abierto y los programadores noveles, Microsoft elimina "cualquier incentivo" para que los usuarios de Copilot descubran las comunidades de código abierto. A largo plazo, podría provocar una perturbación devastadora que acabaría con la comunidad y robaría su compromiso, que iría directamente a la "cartera del copiloto", argumenta Butterick. Calificando a Copilot de "parásito" que succiona a los colaboradores del código abierto, acusa a Microsoft de "traicionar todo lo que GitHub ha representado siempre".

No hay solicitud de consentimiento

Puede resultar tentador culpar únicamente a Microsoft de la polémica sobre Copilot. El gigante tecnológico está directamente vinculado a OpenAI ha invertido 1.000 millones de dólares en la empresa y pretende invertir aún más. Se podría decir que todos los gigantes tecnológicos tienen la costumbre de robar datos de los usuarios con fines de lucro (no hay necesidad de ir mucho más allá de Meta y Google), pero el hecho de que no haya reglas o estándares a seguir para el entrenamiento de sistemas de IA hace que esto sea todo. situación aún más compleja.

Legalmente, no hay nada que impida que compañías como OpenAI y Stability AI (más conocidas por su generador de imágenes basado en texto, Stable Diffusion) entrenen sus modelos de Inteligencia Artificial a partir de información personal, contenido protegido por derechos de autor, imágenes médicas… básicamente cualquier contenido disponible en línea. Las bases de datos en las que se entrenan estos modelos generativos de IA se componen de enormes cantidades de datos sin filtrar extraídos de todo Internet. Queda a discreción de las empresas que están detrás de los productos de Inteligencia Artificial perfeccionarlos eliminando cualquier contenido ofensivo o sexualmente explícito de la base de entrenamiento. Sin embargo, hay pocos incentivos para que estas empresas hagan algo más. Herramientas como Have I Been Trainned? ayudan a los usuarios a buscar sus datos entre los materiales de formación en IA disponibles públicamente para que puedan solicitar su eliminación, pero es sólo un pequeño grano de arena en la playa de la protección de datos y la privacidad. En primer lugar, no es nada fácil encontrar algo concreto allí y, además, nadie garantiza que el contenido se elimine realmente. Además, si encuentras tus datos en la base, significa que probablemente ya se han utilizado para entrenar la IA y puede que ya formen parte de algún producto basado en este tipo de tecnología.

Así que, en la práctica, sólo puedes impedir que tus datos se utilicen para entrenar una inteligencia artificial después de su uso. El caso de Copilot parece ser la primera vez que alguien cuestiona realmente el modelo de aprendizaje de una inteligencia artificial a través de una demanda, por lo que supone un hito importante, aunque las críticas existan desde hace mucho tiempo. A principios de año, un sindicato de artistas del Reino Unido lanzó una campaña para "impedir que la IA robe toda la atención para sí misma". Una de sus principales reivindicaciones es que el gobierno declare ilegal que una IA reproduzca obras de arte sin el consentimiento del artista.

Se puede concluir, por tanto, que la falta de un mecanismo para no dar permiso a este uso indiscriminado y la cuestión del consentimiento vienen ocupando un lugar destacado en los debates sobre Inteligencia Artificial.

No se trata de lo que haces, sino de cómo lo haces

Como afirma Butterick, la principal objeción de los creadores, tanto programadores (como en el caso de Copilot) como artistas visuales, no es la Inteligencia Artificial en general, sino la forma en que están actuando las empresas que crean estas herramientas.

“Podemos imaginar fácilmente una versión más fácil de usar de Copilot con creadores de código fuente abierto. Por ejemplo, hacer que la participación sea voluntaria, o bien pagar a los programadores para que contribuyan al corpus de formación”, escribe.

Algunas plataformas como Getty Images están prohibiendo cualquier tipo de arte generado por IA, otros buscan seguir los caminos sugeridos por Butterick. Por ejemplo, Shutterstock, que recientemente comenzó a vender contenido generado por IA como parte de su asociación con OpenAI y LG, anunció que agregaría una opción de exclusión de permisos para cuentas de contribuyentes. Esta función "permitirá a los artistas excluir sus contenidos de cualquier base de datos futura si prefieren no contribuir al entrenamiento de IA con los contenidos que producen ". Además, Shutterstock ha creado un Fondo de Contribuidores, que podría utilizarse para compensar a los artistas por utilizar sus creaciones para el entrenamiento de modelos de IA. El DeviantArt también está dando a los creadores los medios para bloquear los sistemas de IA para que no roben sus contenidos. Se aplicará una etiqueta HTML especial a las páginas de DevianArt de los artistas que hayan solicitado que su obra no se utilice para el entrenamiento de IA. Los terceros deberán etiquetar los contenidos con esta etiqueta, de acuerdo con las condiciones de servicio del sitio. Cabe señalar que, técnicamente, los sistemas de IA podrán seguir captando estos datos.

Sin embargo, estos ejemplos siguen representando una excepción a la regla y, sin regulación, nunca serán mayoría. La demanda contra Copilot, además de poner el foco en los problemas relacionados con el entrenamiento de la IA, también puede desencadenar un cambio importante. Por lo tanto, aunque una sola denuncia no sea capaz de cambiar todo el sistema, puede provocar un efecto dominó, estimulando cambios en la legislación y una eventual regulación. Teniendo en cuenta que los nuevos productos basados en IA están apareciendo por todas partes, necesitamos regular las empresas que están detrás de ellos antes de que sea demasiado tarde, antes de que se hayan apropiado de todos nuestros datos.

Contribuindo ainda para o problema, está o fato de que os Gigantes da Tecnologia, notórios pela sua falta de consideração com a privacidade e proteção aos dados de usuário, lideran esta revolución de la Inteligencia Artificial. Se sabe que Google está trabajando en varios proyectos de código de Inteligencia Artificial, entre ellos Pitchfork. Esta herramienta secreta, que aún está en desarrollo, supuestamente arreglará su propio código escrito por Inteligencia Artificial. El objetivo de este proyecto era optimizar las actualizaciones del código base del lenguaje de programación Python de Google. Más específicamente, deshacerse de los ingenieros de software y dejar que la IA haga todo el trabajo. Según Business Insider, que habló con fuentes internas de Google, los objetivos del proyecto han cambiado un poco y ahora consisten en transformar la herramienta en un “sistema de propósito general”.

Nuevas tecnologías, mismo mal uso de los datos

Queda por ver cuáles serán los resultados del intento de desafiar a Copilot por parte de los desarrolladores de GitHub y si esto tendrá algún efecto significativo en la industria en su conjunto. Por otro lado, el problema de los sistemas de IA generativa reside en una zona gris entre el uso legítimo y la infracción de los derechos de autor.

Por otra parte, este problema existe desde hace mucho tiempo. En el fondo, se trata del uso indebido de los datos de los usuarios por parte de las grandes empresas tecnológicas, que constituyen una amenaza por derecho propio. Podemos intentar resolver la parte específica de la IA de esta controversia mediante nuevas normas y leyes, pero como hemos visto en los intentos de la Unión Europea y de Estados Unidos por garantizar la protección de nuestros datos frente a las grandes empresas tecnológicas, incluso las leyes más duras no son un factor disuasorio. Las grandes tecnológicas siempre encontrarán resquicios para eludir las normas de privacidad y las leyes de protección de datos. Pero eso no significa que nuestra comunidad no tenga que presionar a los gobiernos para que desarrollen estas normas y reglamentos, y a los gigantes tecnológicos para que los cumplan.

¿Te gustó esta publicación?

AdGuard VPN
para Windows

Utiliza cualquier navegador o aplicación y nunca te preocupe por tu anonimato de nuevo. El mundo entero está a tu alcance con AdGuard VPN.
Más información
Descargar
Al descargar el programa, aceptas los términos del acuerdo de licencia

AdGuard VPN
para Mac

En solo dos clics, selecciona una ciudad de cualquier parte del mundo, tenemos 65+ ubicaciones, y tus datos son invisibles a las miradas indiscretas de empresas y gobiernos.
Más información
Descargar
Al descargar el programa, aceptas los términos del acuerdo de licencia

AdGuard VPN
para iOS

Refuerza tu protección en línea llevándola contigo a donde vayas. Utiliza AdGuard VPN para disfrutar de tus películas y programas favoritos.
Más información
App Store
Al descargar el programa, aceptas los términos del acuerdo de licencia

AdGuard VPN
para Android

¡Mantén el anonimato allá donde vayas con AdGuard VPN! Docenas de ubicaciones, conexión rápida y confiable, todo en tu bolsillo.
Más información
Google Play
Al descargar el programa, aceptas los términos del acuerdo de licencia
Descargar
Al descargar el programa, aceptas los términos del acuerdo de licencia

AdGuard VPN
para Chrome

Oculta tu verdadera ubicación y emerge desde otro lugar del mundo: accede a cualquier contenido sin límites de velocidad y mantén tu anonimato en la red.
Más información
Instalar
Al descargar el programa, aceptas los términos del acuerdo de licencia

AdGuard VPN
para Edge

Ve a otra ubicación con un solo clic, oculta tu IP y haz que tu navegación por Internet sea segura y anónima.
Más información
Instalar
Al descargar el programa, aceptas los términos del acuerdo de licencia

AdGuard VPN
para Firefox

Protege tu privacidad, oculta tu ubicación real y elige dónde necesitas la VPN y dónde no.
Más información
Instalar
Al descargar el programa, aceptas los términos del acuerdo de licencia

AdGuard VPN
para Opera

Sé un ninja en tu navegador Opera: muévete rápidamente a cualquier parte del mundo y pasa desapercibido.
Más información
Instalar
Al descargar el programa, aceptas los términos del acuerdo de licencia
La descarga de AdGuard VPN
ha comenzado
Haz clic en el botón indicado por la flecha para iniciar la instalación.
Escanear para instalar AdGuard VPN en su dispositivo móvil