InternetThe Everything Industrial Complex

The Everything Industrial Complex

¿Qué tan grande quiere ser big data? Al menos tan grande como el planeta.

Una sencilla búsqueda en Google Trends (una de las más útiles y menos sofisticadas herramientas de market research de Google), nos muestra que, desde 2004 a la fecha, el interés en big data ha crecido notable y consistentemente. Interés en el término (y uno asume, en la disciplina) pegó una San Disparada a finales de 2009, y se consolidó durante los próximos años.

Curva histórica de interés en "big data" en Google
Fuente: Google Trends

Si bien ahora la tendencia está en un revés bajista, otros términos como “data analytics” y “big data analytics” continúan en alza. Esta es una simple, pero no despreciable muestra de la relevancia de big data. Al menos, en cuanto buzzword.

Pero, incluso si la buzzword dejara de resultar interesante, probablemente se debería a que todas las áreas de la vida pública se empaparon de la disciplina hasta tal punto que dejó de constituír un objeto en sí mismo y se convirtió en una forma natural de hacer las cosas. Por otra parte, en la época de la optimización para motores de búsqueda, las compañías de big data son de las pocas que parecen oscurecer adrede su propuesta de valor. Nadie hace big data, nadie hace data gathering. Todos son fuentes – pero no recolectores.

Como fuese, mi intención de cara al presente no es hacer una mega-introducción SEO-friendly de qué es big data. Llegado el caso, es algo que:

  1. Podes conseguir, mejor hecho, en otro lado.
  2. Puede ser inconducente.

No me interesa afilar definiciones como debater anti-feminista en 2012. “¿Qué es una mujer?”, la verdadera pregunta es “¿A quién carajo le importa?”.

De cara a este asunto, sabemos cuatro cosas:

  1. Todos los productos y servicios que involucren software son capaces de registrar data de uso o de hacer prolifing de sus usuarios.
  2. Aquellas organizaciones que no funcionan sobre plataformas digitales compran data de organizaciones que sí lo hacen, en función de afilar sus operaciones.
  3. Esta data es colectada con un consentimiento muy laxo por parte del usuario, que no lee los términos y condiciones y, aunque lo hiciera, no tendría otra opción que aceptar o convertirse en el Unabomber.
  4. La colección de data a escala no se está yendo a ningún lado.
  5. La colección de data a escala es un problema.

La clase vectorialista

En Capital is Dead: Is this something worse?, la autora australiana McKenzie Wark presenta una hipótesis tan simple como acertada:

Tal como el poder, en siglos pasados, se construía en función de la posesión de los medios de producción, hoy en día, se construye en base a la posesión de los mecanismos de colección, organización, y distribución de la información. Básicamente, vectores.

Este estado de las cosas fue forjado y es perpetuado por una nueva clase social, con una ideología propia. Wark bautiza a este grupo como “la clase vectorialista”.

No voy a ser el primero en decir que los datos son “oro digital”. Lo interesante de esto es que los datos son la consecuencia de otras actividades. Son el byproduct, si se quiere, inintencional, de acciones llevadas a cabo por agentes desentendidos de los objetivos comerciales de quienes colectan los datos.

Pasando en limpio: Twitter consigue data sobre mí que puede agregar con los de millones de otros usuarios y convertir en una atractiva propuesta de valor para anunciantes. Pero mi accionar en Twitter no tiene nada que ver con esto. A menos que yo haga una suerte de hijacking de las relaciones que la plataforma me permite tener y las monetice por mi cuenta, mi actividad en Twitter no tiene por qué ser redituable para mí. Pero va a ser redituable para Twitter.

Toda feature va a apuntar a que yo – perdón, nosotros pasemos más tiempo en la plataforma, entonces inflamos los números, diseñamos el caso de éxito, y ayudamos a Twitter a estrechar su relación con advertisers.

Si estás acá, probablemente te interese nuestra traducción de “Contra Facebook” de 0xADADA.

Este es un ejemplo, quizás burdo, quizás tonto, y planteado con una mala leche increíble. Pero nos lleva a dónde quiero llevar la conversación: ¿Por qué Twitter tiene este modelo de negocios? Porque nadie pagaría una suscripción jugosa por Twitter.

Software as a Service

Twitter no puede tomar escala como servicio de suscripción para rancios que se putean con pibitos de 12 años sobre decisiones de producción de El Multiverso de la Locura. Entonces uno y millones como uno, sentados en monoambientes llenos de funkopops, vistiendo el pijama de la startup empleadora, somos el producto que vender a advertisers.

En parte, la razón por la que el internet se monetiza en base a data gathering, es que no hay otro modelo comercial para internet. Bueno, sí – lo hay, pero no sirve para la mayoría de las plataformas.

Me refiero, por supuesto, a la dinámica de SaaS (software as a service). En el estado actual de las cosas, todo producto digital toma una de las siguientes formas:

  • Homenaje a Carlo Ponzi
  • Suscripción vitalicia
  • Aggregator de información “anonimizada”

A quienes les interese saber por qué puse comillas en el último punto, recomiendo el siguiente sketch del agente de la CIA John Oliver:

Punto aparte: Disfruto mucho el programa del agente de la CIA John Oliver, para el disgusto de mi marido, un gun-loving republican. Soy tambien un usuario de Apple y un suscriptor de HBO Max.

Volviendo al asunto que nos convoca, vale la pena ahondar en por qué las redes sociales no son plataformas de suscripción.

En parte, esto se debe a que internet nació decentralizada y atomizada. Uno puede ingresar a cientos de sitios por día y ser un usuario activo de decenas de plataformas. En este contexto, un modelo de paywalls radicales no funciona. Cualquiera que haya intentado consumir periodismo de calidad en internet puede atestiguar que transferir ese modelo a todos los sitios del mundo sería increíblemente negativo.

Pero, ¿Qué sucedería si las redes sociales ganaran y ya no existieran sitios fuera de ellas? ¿Qué sucedería si encontraran una manera de que todo internet se centralizara en unas pocas plataformas?

Meta tiene el sueño de que uno sólo use productos de Meta. Esto no sólo transpira del proyecto de Mark Zuckerberg de crear un mundo aparte. Se nota en la UX de las plataformas de Meta. Ejemplo tonto: Instagram no permite que uno incluya links funcionales a sitios de terceras partes, toda su interfaz está diseñada para que uno navegue dentro de Instagram y explore “hacia dentro”, no “hacia fuera”.

Imaginemos que Zuckerberg et al. logran su cometido: ¿No sería, este poderío, un hermoso justificativo para cobrar una suscripción? Para nada, un modelo de suscripción sería una fricción para la adopción masiva, y resultaría mucho menos redituable que la venta a mansalva de tal gargantuesca cantidad de datos.

De hecho, ya existe una empresa que logró lo que Zuckerberg pretende, y lo hizo en el mercado más grande del mundo. Por supuesto, me refiero a WeChat, la app definitiva. Por supuesto, WeChat es gratuita.

Hipercomodificación

Hace unos párrafos, quejandome sobre Twitter, mencioné el hecho de que Twitter no me paga por mis datos. Twitter makes a penny, the advertiser makes a pound, and I make absolutely nothing. En línea con este razonamiento, algunos tecnólogos sugieren que el camino a la emancipación es la compra de datos directamente al usuario. Básicamente, yo soy un tambero, Twitter es La Serenísima y BlackRock es Coto.

Esta solución no sería tal. Y la comparación con el tambero me sirve para explicar por qué.

No sé cuánto se le paga a un tambero por un litro de leche. Asumamos que son 10 pesos argentinos – de hecho, dudo que la figura real esté muy lejos. Como fuese, supongamos que ese es el caso. Por mi litro de leche, La Serenísima me da 10 pesos, pero cada vaca me da 10 litros de leche (acá ya no sé de qué estoy hablando), y tengo 20 vacas. Esas vacas me dan leche todos los días. Listo, tengo $2000 por día. Son $60000 por mes. No soy rico, pero gano más que $10.

En el caso de los datos, mi impacto individual es ínfimo, y no puedo convertirme en 20 vacas que den 10 litros de leche por día. Soy uno sólo, mis datos son una unidad, y una unidad que constituye una gota en un océano de información que me excede. No puedo multiplicar mi impacto. Siempre mi perfil va a ser un perfil. Aunque le ofrezca baterías de data a distintas plataformas y todas la puedan monetizar a gran escala, soy uno solo.

La escala ideal de big data es “tan grande como sea posible”, y a medida que se expanda, mi actividad en Twitter va a ser menos valiosa como unidad. Las fábricas de datos individuales nunca vamos a encontrar lucrativa esta dinámica. En cierto punto, es similar a lo que sucede con los “trabajadores fantasma” que hacen microtareas que las startups luego rebrandean como “inteligencia artificial”. Te pueden pagar 25 centavos de dólar por clasificar imágenes de propiedades para AirBnB. No vale más que eso, perdón. No intentes vivir de esto.

El problema del consentimiento

Hace poco, vi una breve ponencia del Dr. Fred Cate, en la que argumentaba contra el consentimiento.

Básicamente, la hipótesis es la siguiente:

Las compañías de tecnología usan los términos y condiciones y las políticas de privacidad para lavarse las manos. Nadie lee estas políticas y si las leyera, la mayoría de la gente no las entendería. No porque sean tontos, claro está, sino porque estos documentos son escritos para ser oscuros y obtusos.

No hay consentimiento real en la aceptación de términos y condiciones. Entonces, la idea de consentimiento es la esperanza de pobre del big data. Básicamente, es una ilusión que camufla pobremente un state of affairs en el que uno no tiene control real.

Entonces, llegado a este punto:

  1. La colección de datos a gran escala es el único camino redituable para buena parte de las plataformas online.
  2. La idea de conseguir un rédito económico en función de los datos que estas plataformas recaudan es irrisoria: Sería una limosna y tiene sentido que lo sea.
  3. Uno tiene poco control sobre qué data se recaba sobre uno, la única manera de ganar el juego es no participar.

Frameworks para la toma de decisiones

Más allá de las condiciones de recolección y el por qué de ese recolección, un punto de preocupación alrededor de big data es su aplicación. En especial, lo oscura de su aplicación.

En épocas pasadas, más sencillas, donde había dos tipos de persona, etcétera, etcétera, el gathering de datos era más sencillo y directo tambien. Había ocasiones de producción de esos datos, con fines específicos, y podía hacerse partícipes a las fuentes de una forma mucho más directa. La recolección de datos era discreta. Ahora, la recolección de datos es el pulso de la economía, y el scope es planetario. De todas formas, aquellos que no venden data (pero la recolectan con fines comerciales o de investigación) pueden elegir cuándo colectar data y en función de qué.

Un criterio que puede guiar estas decisiones es qué tan probable sea la filtración de esta información o la vulneración de las fuentes, y si el potencial beneficio es proporcional o no.

Aquí está una matriz propuesta por el Future of Privacy Forum para gestionar la publicación de open data:

Matriz para evaluar el riesgo de gestión de datos
Fuente: Future of Privacy Forum

Por supuesto, esta es una entre muchas herramientas para navegar la situación actualmente existente.

No queda otra que hablar de la pandemia (LPM)

Quizás se pregunte, lector/a/x, qué motivó este rant. Como bien sabrá, hace algunos días, la Corte Suprema Norteamericana trabajó el borrador de un fallo que revertiría Roe vs. Wade.

Ante esta situación, comenzó a circular vía Twitter una lista de inversores en una startup de location data. Básicamente, una compañía que se dedica a colectar, empaquetar y vender información sobre a dónde van y de dónde vienen quienes visitan ciertas locaciones, y durante cuánto tiempo permanecen en ellas. Esta data puede tener una aplicación positiva: Optimizar experiencias de retail. Pero también puede servir para registrar y controlar el acceso a Planned Parenthood y proveedores de cuidados similares. Vice publicó lo que es, básicamente, un explainer del problema. En el artículo menciona algo muy importante: ¿De dónde viene esta nefasta, macabra y peligrosa location data? De aplicaciones aparentemente inocuas.

Durante la pandemia, se celebró la colección de location data (y otros tipos de data sensible) a escala. Palantir tomó control de los datos de la NHS, se celebró como el pináculo de la responsabilidad ciudadana un sistema de buchoneo digital para cualquiera que rompiera normas de circulación arbitrariamente impuestas y arbitrariamente relajadas. A su vez, millones de personas pasaron a trabajar desde su casa, desde computadoras cargadas de spyware “para la productividad”.

¿Qué tan grande quiere ser big data? Al menos tan grande como el planeta.

Subí Drag View