sql >> Databasteknik >  >> RDS >> PostgreSQL

Pyspark:Ta bort UTF-nulltecken från pysparks dataram

Ah vänta - jag tror jag har det. Om jag gör något sånt här verkar det fungera:

null = u'\u0000'
new_df = df.withColumn('e', regexp_replace(df['e'], null, ''))

Och sedan mappa till alla strängkolumner:

string_columns = ['d','e']
new_df = df.select(
  *(regexp_replace(col(c), null, '').alias(c) if c in string_columns else c for
    c in df.columns)
  )


  1. MySQL - uppdaterar alla poster för att matcha maxvärdet i gruppen

  2. Använder Template::Toolkit med arraydata från databasen

  3. Hur man uppdaterar mysql-versionen i xampp (fel med innodb_additional_mem_pool_size)

  4. Rails:Lägger till migrering för att lägga till en array (tomt som standard)