Jag har jobbat mycket med den här typen av analys. Eftersom det finns fel kommer du inte att få 100 % noggrannhet, men det finns några saker du kan göra för att komma dit mest och sedan göra ett visuellt BS-test. Här är det allmänna sättet att gå tillväga. Det är inte kod, för det är ganska akademiskt att skriva det, det finns inga konstigheter, bara mycket stränghantering.
(Nu när du har lagt upp några exempeldata har jag gjort några mindre ändringar)
- Arbeta bakåt. Börja från postnumret, som kommer att vara nära slutet, och i ett av två kända format:XXXXX eller XXXXX-XXXX. Om detta inte visas kan du anta att du befinner dig i staden, delstatsdelen nedan.
- Nästa sak, före zip, kommer att vara staten, och den kommer att vara antingen i tvåbokstavsformat eller som ord. Du vet vad dessa kommer att bli också - det finns bara 50 av dem. Du kan också soundex orden för att kompensera för stavfel.
- innan det är staden, och det är förmodligen på samma linje som staten. Du kan använda en zipkoddatabas för att kontrollera staden och staten baserat på zip, eller åtminstone använda den som en BS-detektor.
- Gatuadressen är vanligtvis en eller två rader. Den andra raden kommer vanligtvis att vara svitnumret om det finns ett, men det kan också vara en postbox.
- Det kommer att vara näst intill omöjligt att upptäcka ett namn på första eller andra raden, men om det inte är prefixet med ett nummer (eller om det har prefixet ett "attn:" eller "attention to:" kan det ge dig ett tips om huruvida det är ett namn eller en adressrad.
Jag hoppas att detta hjälper något.