sql >> Databasteknik >  >> RDS >> Mysql

Få de mest upprepade liknande fälten i MySQL-databasen

Det du pratar om är en textklustringsprocess. Du försöker hitta liknande textstycken och väljer godtyckligt en av dem. Jag är inte bekant med någon databas som gör denna form av textutvinning.

För det du beskriver skulle en ganska grundläggande textutvinningsteknik förmodligen fungera. Skapa en term-dokumentmatris med alla ord utom användarnamnen. Använd sedan singularvärdesuppdelning för att få det största singularvärdet och vektorn (detta är den första huvudkomponenten i korrelationsmatrisen). Liknande verksamheter bör samlas längs denna linje.

Om du har ett begränsat ordförråd och har termerna i en tabell, kan du mäta avståndet mellan två handlingar med andelen ord som överlappar varandra. Har du en lista över alla ord i handlingarna?



  1. Returnera alla inaktiverade begränsningar i SQL Server (T-SQL-exempel)

  2. Mysql Inner join med OR-villkor?

  3. Base64-kodning och avkodning i oracle

  4. LIKE-frågan sql fungerar inte i sammanlänkade värden med mellanslag