sql >> Databasteknik >  >> RDS >> PostgreSQL

PostgreSQL, trigram och likhet

Begreppet trigramlikhet bygger på att någon mening är uppdelad i "trigram" (sekvenser av tre på varandra följande bokstäver) och att resultatet behandlas som en SET (dvs:ordningen spelar ingen roll, och du har inte upprepade värden). Innan meningen övervägs läggs två tomma mellanslag till i början och ett i slutet, och enstaka mellanslag ersätts med dubbla.

Trigram är ett specialfall av N-gram .

Trigramuppsättningen som motsvarar "Chateau blanc" hittas genom att hitta alla sekvenser av tre bokstäver som visas på den:

  chateau  blanc
---                 => '  c'
 ---                => ' ch'
  ---               => 'cha'
   ---              => 'hat'
    ---             => 'ate'
     ---            => 'tea'
      ---           => 'eau'
       ---          => 'au '
        ---         => 'u  '
         ---        => '  b'
          ---       => ' bl'
           ---      => 'bla'
            ---     => 'lan'
             ---    => 'anc'
              ---   => 'nc '

Genom att sortera dem och ta bort repetitioner får du:

'  b'
'  c'
' bl'
' ch'
'anc'
'ate'
'au '
'bla'
'cha'
'eau'
'hat'
'lan'
'nc '
'tea'

Detta kan beräknas av PostgreSQL med hjälp av funktionen show_trgm :

SELECT show_trgm('Chateau blanc') AS A

A = [  b,  c, bl, ch,anc,ate,au ,bla,cha,eau,hat,lan,nc ,tea]

... som har 14 trigram. (Kolla pg_trgm ).

Och trigramuppsättningen som motsvarar "Chateau Cheval Blanc" är:

SELECT show_trgm('Chateau Cheval Blanc') AS B 

B = [  b,  c, bl, ch,anc,ate,au ,bla,cha,che,eau,evl,hat,hev,la ,lan,nc ,tea,vla]

... som har 19 trigram

Om du räknar hur många trigram som har båda uppsättningarna gemensamma, upptäcker du att de har följande:

A intersect B = 
    [  b,  c, bl, ch,anc,ate,au ,bla,cha,eau,hat,lan,nc ,tea]

och de som de har totalt är:

A union B = 
    [  b,  c, bl, ch,anc,ate,au ,bla,cha,che,eau,evl,hat,hev,la ,lan,nc ,tea,vla]

Det vill säga, båda meningarna har 14 trigram gemensamma och 19 totalt.
Likheten beräknas som:

 similarity = 14 / 19

Du kan kontrollera det med:

SELECT 
    cast(14.0/19.0 as real) AS computed_result, 
    similarity('Chateau blanc', 'chateau cheval blanc') AS function_in_pg

och du kommer att se att du får:0.736842

... som förklarar hur likhet beräknas och varför du får de värden du får.

OBS:Du kan beräkna korsningen och föreningen med hjälp av:

SELECT 
   array_agg(t) AS in_common
FROM
(
    SELECT unnest(show_trgm('Chateau blanc')) AS t 
    INTERSECT 
    SELECT unnest(show_trgm('chateau chevla blanc')) AS t
    ORDER BY t
) AS trigrams_in_common ;

SELECT 
   array_agg(t) AS in_total
FROM
(
    SELECT unnest(show_trgm('Chateau blanc')) AS t 
    UNION 
    SELECT unnest(show_trgm('chateau chevla blanc')) AS t
) AS trigrams_in_total ;

Och det här är ett sätt att utforska likheten mellan olika meningspar:

WITH p AS
(
    SELECT 
      'This is just a sentence I''ve invented'::text AS f1,
      'This is just a sentence I''ve also invented'::text AS f2
),
t1 AS
(
    SELECT unnest(show_trgm(f1)) FROM p
),
t2 AS
(
    SELECT unnest(show_trgm(f2)) FROM p
),
x AS
(
    SELECT
        (SELECT count(*) FROM 
            (SELECT * FROM t1 INTERSECT SELECT * FROM t2) AS s0)::integer AS same,
        (SELECT count(*) FROM 
            (SELECT * FROM t1 UNION     SELECT * FROM t2) AS s0)::integer AS total,
        similarity(f1, f2) AS sim_2
FROM
    p 
)
SELECT
    same, total, same::real/total::real AS sim_1, sim_2
FROM
    x ;

Du kan kontrollera det på Rextester



  1. PHP Lägger till databasresultat till flerdimensionell array

  2. MySQL-lösenordsproblem (mac OS X Lion)

  3. mysql datumlista med räkning även om ingen data på specifikt datum

  4. Förhindra SQL-injektionsattacker med Python