Cualificaciones que buscar en un Científico de Datos
Los mejores candidatos a Científicos de Datos, Gerentes y Analistas se destacan en la obtención de información procesable a partir de los datos generados por la organización. Tienen un sexto sentido para saber qué datos recopilar y un proceso sólido para llevar a cabo análisis de datos efectivos y construir modelos predictivos.
Los candidatos necesitan una base sólida en estadística, investigación de operaciones y aprendizaje automático, así como habilidades en bases de datos como Python y SQL. Esto les ayuda a recuperar, limpiar y procesar datos de diversas fuentes.
Tus mejores candidatos tendrán formación y un título en matemáticas o estadística, ingeniería o ciencias de la computación.
Un Científico de Datos típico programará en un lenguaje de scripting como R, Python o MATLAB, y será capaz de presentar los hallazgos del análisis.
Busca candidatos que sean:
- Visualizadores de información
- Tengan conocimientos de Tableau o D3.js (o programas relacionados)
- Grandes comunicadores
Recuerda modificar algunas preguntas para que sean más cuantitativas, preguntas de entrevista de análisis estadístico.
Consejo principal: Contrata candidatos dispuestos a crecer asegurándote de que sus objetivos profesionales personales se alineen con la misión de tu empresa.
Preguntas de entrevista sobre resolución de problemas
- Explícame tu proceso paso a paso para diseñar un modelo basado en datos que resuelva un problema de negocio. Por ejemplo, un proceso automatizado para segmentar preguntas de soporte al cliente, predecir patrones de contratación o reducir las tasas de abandono.
- ¿Cuáles son los pasos de preprocesamiento que se realizan en los datos antes de entrenar un modelo y en qué condiciones podrían aplicarse?
- Describe la diferencia entre un modelo simple y uno complejo. Dame algunos ejemplos.
- ¿Cómo combinarías modelos para formar conjuntos de modelos? ¿Cuándo sería esto ventajoso?
- Explica la reducción de dimensionalidad y las formas de realizarla.
- ¿En qué situación elegirías un modelo más complejo en lugar de uno más simple? ¿Cuándo no sería esto ventajoso para ti?
Preguntas de entrevista específicas del puesto
- ¿En qué entorno(s) sueles ejecutar tus análisis?
- ¿Estás familiarizado con SQL? ¿Cuándo lo has utilizado?
- ¿Qué herramientas de visualización has utilizado? ¿Cuáles son tus funciones favoritas?
- Nos encantaría ver cualquier presentación que hayas preparado.
- Describe tu experiencia presentando informes y resultados directamente a la alta dirección.
- ¿Cómo te sientes al hablar en público? ¿Has presentado un tema técnico a una audiencia antes? Si es así, ¿cómo explicas las cosas a una audiencia no técnica?
- ¿Cuál es tu métrica para saber si has recopilado suficientes datos para entrenar un modelo?
- ¿Cuál es la razón de los conjuntos de datos de entrenamiento, prueba y validación? ¿Cómo se utilizan eficazmente?
- Explica un intervalo de confianza y en qué circunstancias lo utilizarías.
- Explica la diferencia entre independencia estadística y correlación.
- Define la probabilidad condicional y el Teorema de Bayes. ¿Cuándo aplicarías esta práctica?
- Estamos entrenando un modelo usando el descenso de gradiente estocástico. ¿Cómo sabemos si estamos convergiendo a una solución? Si un procedimiento de entrenamiento converge, ¿siempre resultará en la mejor solución posible?
- Explica el clustering y describe un algoritmo que lo realice. ¿Qué métrica utilizas para determinar si los clústeres obtenidos son adecuados? ¿Cómo estimas un buen número de clústeres para usar con nuestros datos?
- Explica por qué la correlación no implica causalidad.
- Describe las diferencias clave entre el aprendizaje no supervisado y el supervisado.
- Describe las diferencias clave entre regresión y clasificación.
- ¿Qué es el compromiso entre sesgo y varianza en los modelos estadísticos?
- Explica el sobreajuste y cómo se relaciona con el compromiso entre sesgo y varianza.
- Define la regularización y da ejemplos de regularización en modelos.
- Estamos entrenando un clasificador binario y una clase es muy poco frecuente. ¿Qué ejemplo describe este problema? ¿Cómo deberíamos entrenar este modelo? ¿Qué métricas de rendimiento deberíamos usar?
- ¿Cuántos subconjuntos únicos de n objetos diferentes podemos formar?
- Explique cómo construir un sistema de recomendación basado en datos. ¿Existen limitaciones para este enfoque?
Empiece a optimizar su proceso de contratación hoy mismo.
Empiece a optimizar su proceso de contratación hoy mismo.

