sql >> Databasteknik >  >> NoSQL >> MongoDB

Samma ord men olika unicode-tecken

Problemet du stöter på är att unicode tillåter flera sätt att komponera samma symbol. Python-modulen unicodedata tillhandahåller en funktion normalize som låter dig konvertera unicode-representationer till ett fast formulär (t.ex. NFC)

from unicodedata import normalize

S1 = b'\xc4\x83\xcc\x83'.decode('UTF-8')
S2 = b'\xe1\xba\xb5'.decode('UTF-8')

print(normalize('NFC', S1).encode('UTF-8'))
print(normalize('NFC', S2).encode('UTF-8'))

I ditt exempel visas tripadvisor i NFD-form, medan notepad använde NFC.




  1. Hur man får avstånd - MongoDB Template Near-funktion

  2. Skjutar objekt till Mongodb samlingsuppsättning

  3. MongoDB:matcha icke-tomt dokument i array

  4. Behåller Redis data?