Om du vill modifiera (ta bort poster) den faktiska datakällan, dvs tabeller i postgres, skulle Spark inte vara ett bra sätt. Du kan använda jdbc-klienten direkt för att uppnå detsamma.
Om du ändå vill göra detta (på ett spritt sätt baserat på några ledtrådar som du beräknar som en del av dataramar); du kan ha samma jdbc-klientkod skriven i korrespondens med dataram som har logik/triggerinformation för att radera poster och som kan köras på flera arbetare parallellt.