PySpark -

Convertir un DataFrame de PySpark a diccionario

febrero 28, 2024 por josedeveloper

Quizás no sea lo más usual pero eso no significa que nunca nos veamos en la necesidad de crear un dict de Python a partir de los valores de un DataFrame. En esta entrada veremos algunas de las formas que tenemos para construir un dict a partir de un DataFrame. Para ello contaremos con el … Leer más

Transformar los campos String de un DataFrame usando PySpark

febrero 20, 2024febrero 19, 2024 por josedeveloper

Hay ocasiones en las que nos toca aplicar algún tipo de transformación a todos aquellos campos o columnas de un determinado tipo, como por ejemplo sería pasar a mayúsculas todo el contenido de las columnas String o hacer un cast de todos aquellos campos Float y pasarlos a Double. Este tipo de tareas suele ser … Leer más

Cómo crear un DataFrame en PySpark

febrero 19, 2024febrero 16, 2024 por josedeveloper

En PySpark existen distintas maneras de crear u obtener un DataFrame. Las formas más habituales son a partir de la lectura desde una fuente de datos como puede ser un fichero de texto (Texto no delimitado, CSV, TSV, JSON, XML), ficheros en formato Columnar (Parquet, ORC), ficheros serializados en formatos de fila (Avro), bases de … Leer más