fbpx

¿Porqué no puedes ser un “todero”​ en Ciencia de Datos?

¿Porqué no puedes ser un “todero”​ en Ciencia de Datos?

Como algunos saben, la ciencia de datos no cuenta como un campo perfectamente establecido, más bien, es un conjunto de disciplinas que surgen de una interrogante: ¿Qué clase de ingeniero de datos quiero ser?.

A continuación dejaré una reseña de los diferentes roles que han surgido en este mundo, el cual se encuentra en bastante adopción y están siendo apetecidos por compañías o startups.

Ingeniero de datos.

Descripción del cargo: Estarás administrando esos grandes flujos de datos que maneja la compañía, tu responsabilidad es mantener que estos sean sacados y procesados de su fuente de una manera eficiente, limpia y ordenada.

Importancia del cargo: Si has trabajado con bases de datos relativamente pequeñas ( menores a 5 Gb por ejemplo) con datasets en formatos .csv o .txt, será todo un desafío entender, ¿Porqué existen personas trabajando a tiempo completo construyendo y manteniendo estos ríos y mares de datos?.

¿Razones?:

  1. Una base de datos de 50Gb no la va a soportar la RAM de tu computador, así que necesitas otras formas de como alimentar tus modelos.
  2. Esa enorme cantidad de datos tomará un tiempo bastante considerable para procesarlo, y a veces, tiene que ser almacenado de manera redundante.

Así que como tal requieres conocimientos técnicos para atender estas necesidades, tales como: Apache Spark, Hadoop o Hive, algo de Kafka y bases en SQL. Google Cloud, o Amazon Cloud Services te ayudará a soportar esa carga.

Algunas preguntas que escucharás muy seguido:

  1. ¿Cómo vas a construir un flujo de datos que soporte 10000 solicitudes por minuto?
  2. ¿Cómo puedes limpiar ese dataset sin reventar toda la memoria RAM?

Analista de datos

Descripción del cargo: Tu trabajo es traducir todo ese mar de datos en lenguaje de negocio, estarás en constante contacto con el equipo técnico y los equipos de mercadeo, ventas o estrategia de negocios. La visualización de los datos es tu prioridad.

Importancia del cargo: Alguien debe traducir toda esa información a algo más “masticable” para las demás áreas de la compañía, podría decirse que eres el interprete entre el área técnica y el core del negocio.

Por lo tanto vas a requerir un poco de ambas partes, como Python, fundamentos en SQL y buenas habilidades comunicativas, y ser experto en herramientas de visualización de datos, Tableau, Qlik, Excel, elige la que más se adapte a tu estilo.

Algunas preguntas que escucharás muy seguido:

  1. ¿Qué está generando ese crecimiento de nuestros usuarios/clientes?
  2. ¿Cómo le podemos explicar a la administración que el aumento en los precios está alejando a nuestros clientes?

Científico de datos

Descripción del cargo: Tu labor es la de limpiar y explorar conjuntos de datos y hacer predicciones que le darán valor al negocio. En el día a día estarás siempre estudiando y optimizando modelos, y a veces, los subirás a producción.

Importancia del cargo: Cuando el volumen de información es muy grande para ser entendida por el ser humano y muy valiosa para ser ignorada, debes encontrar alguna manera de como sacar a flote esas tendencias y establecer predicciones.

Vas a necesitar habilidades técnicas en Python, scikit-learn, Pandas, SQL, algo de Flask, Spark o TensorFlow/PyTorch. Usualmente estarás en la parte técnica aunque no está de más que sepas del negocio, así que, de vez en cuando habla con el Analista de Datos.

Algunas preguntas que escucharás muy seguido:

  1. ¿Qué/Cuántos tipos/clasificaciones de clientes tenemos?
  2. Podrías hacer un modelo para saber, ¿Qué productos serán vendidos?, y ¿A qué clientes?.

Ingeniero de Aprendizaje Autónomo

Descripción del cargo: Tu labor es construir, optimizar y pasar esos modelos a producción. lidiando con API’s, implementando eso en un software o algún hardware. También de encontrar nuevas formas de resolver problemas.

Importancia del cargo: Estás automatizando procesos, optimizando tiempos en esas consultas que se harán día a día, nada más interesante que ver a tus máquinas aprendiendo todo lo que les des.

Vas a tener que ser un adepto en Python, Javascript, scikit-learn, TensorFlow/PyTorch (posiblemente algunas propias de cada negocio), SQL o MongoDB (Para algunas BD de Apps).

Algunas preguntas que escucharás muy seguido:

  1. ¿Cómo integraremos ese modelo (KERAS) en nuestra aplicación (JavaScript)?
  2. ¿Puedes reducir el tiempo y costo de predicción en nuestro sistema?
  3. ¿Cómo reducir el tiempo de aprendizaje de la máquina?
  4. ¿Se podrá mejorar el resultado de la predicción a un margen de error mínimo?

Estos 4 roles van muy de la mano, en algunos casos (ya sea el tamaño de la empresa o la necesidad), se van a combinar algunos, solo hay que tener en cuenta la dimensión del proyecto o el volumen de los datos para identificar que tan multidisciplinario tiene que ser el equipo.

Igualmente, si eres un Freelancer o CEO para una startup, tendrás que haberte familiarizado con todos estos para entender la solución a entregar.

Share this post

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *