Problemet du stöter på är att unicode tillåter flera sätt att komponera samma symbol. Python-modulen unicodedata
tillhandahåller en funktion normalize
som låter dig konvertera unicode-representationer till ett fast formulär
(t.ex. NFC)
from unicodedata import normalize
S1 = b'\xc4\x83\xcc\x83'.decode('UTF-8')
S2 = b'\xe1\xba\xb5'.decode('UTF-8')
print(normalize('NFC', S1).encode('UTF-8'))
print(normalize('NFC', S2).encode('UTF-8'))
I ditt exempel visas tripadvisor i NFD-form, medan notepad använde NFC.