sql >> Databasteknik >  >> RDS >> Mysql

Jaro-winkler-funktion:varför matchar samma poäng mycket lika och väldigt olika ord?

Avståndsformeln Jaro-Winkler är partisk mot strängar med en gemensam början. Till exempel Valentina och Valentiria .

Den har också några inte så intuitiva "regler" (se wikipedia ).

Du bör förmodligen först bestämma vilken typ av olikhet du förväntar dig och sedan leta efter en lämplig distansformel. Till exempel, i skrift är "angleworm" och "angelworm" ett mycket troligt fel, så avståndet mellan de två strängarna borde vara lågt. Även om det är mindre troligt att "där" och "tre" inte matchar och "eter" ännu mer. Med längre anagram kan Jaro-avståndet vara exakt detsamma, och till och med Winkler-korrigeringen kanske inte slår in.

Som du kan läsa på denna sida (min betoning)



  1. Finns det något sätt att upprätthålla en db-relation (pk/fk) i följande scenario

  2. Oracle-anslutningssträng utan tnsnames.ora-fil

  3. Session fungerar korrekt i Localhost men inte i CPANEL

  4. SQL Server Ändra databasnamn