Door Ard van Wiersum: Een vraag voor de linguïstisch aangelegde password IT Expert:
Zouden wachtwoorden samengesteld uit willekeurige Chinese karakters veiliger zijn dan bijvoorbeeld bij gebruik van Nederlandse woorden?
Als ze samengesteld zijn uit *willekeurige* Chinese karakters zijn ze natuurlijk veel veiliger dan bestaande Nederlandse woorden.
Het sleutelwoord is *willekeurig* .
Maar een "woord" samengesteld uit willekeurige ascii karakters is precies zo veilig als een woord (van dezelfde hoeveelheid bits) samengesteld uit willekeurige Chinese tekens.
Een hoogbegaafde Chinees kent maar liefst 40.000 karakters uit het hoofd en een Chinees die taalkundig gemiddeld scoort ongeveer 12.000. Complicerende factor is ook dat elk karakter in de context van een zin een verschillende betekenis heeft en - nu twijfel ik of het klopt - die verschillende karakters nogal eens opgebouwd zijn uit verschillende, ik noem het maar: streepjes of boogjes.
Dat is allemaal niet heel relevant voor password - en nog minder relevant als je geen Chinees kunt lezen . Dan levert het voor jou qua gemak niks op als je een serie Chinese tekens probeert te onthouden als password, in plaats van een serie willekeurige letters en cijfers.
Eerst : praktisch gezien - de feitelijke invoer van Chinese tekens als password levert natuurlijk op ontzettend veel westerse sites een groot probleem op, omdat die als invoer 'printable ascii' verwachten.
Je kunt Chinese (en allerlei andere niet-latijnse karakters) prima opslaan en weergeven als UTF-8 , dat gebruikt meerdere bytes om een Chinees (of Koreaans, of Arabisch, of Cyrillisch) teken op te slaan , maar het is niet gegeven dat een site of applicatie dat accepteert .
En je kunt ook tegen problemen aanlopen als je op een nieuw/ander device dat opnieuw moet invoeren, maar je invoer device niet ingericht is op die teken-invoer.
Voor een klein voorbeeld, vraag je maar af hoe makkelijk het gaat als een bezoekende Duitser z'n password met ringel-S wil ingeven op jouw toetsenbord .
Of dus andersom , als jij op bezoek bent in Duitsland, of Spanje, en je krijgt een Wifi password met ringel-S, tilde boven een letter,cedille om in te geven.
Nu wat linguistiek :
Ja - een Chinees teken wordt met een aantal strepen (oorsprong : penseelstreken) opgebouwd, en die worden ook in een standaard volgorde geschilderd , als je kalligrafeert . Je ziet de penseel aanzet (dun) en het loslaten (dikker, soms bijna een druppel ) terug in de strepen . Ook dus in de gedrukte vorm, of de letters op de ruit van het Chinese restaurant.
Basale tekens (man,vrouw) bestaan uit enkele streken, en complexere uit meer streken, of zijn in zekere zin een samenbouw van simpelere karakters.
(Het teken voor dak , en het teken voor varken , gezamelijk , vormen het begrip "huis" - een oud teken met een boeren achtergrond.
https://usa.chinadaily.com.cn/weekly/2011-10/07/content_13843121.htmJe kunt wat dat betreft dus wat genuanceerd kijken naar het "aantal unieke karakters" in het Chinees. In de zin dat het een uniek teken is , ja - maar met dergelijke constructies kan een Chinees dus in zekere zin karakters begrijpen die 'm voorheen niet persé bekend waren.
https://studycli.org/chinese-characters/number-of-characters-in-chinese/Geeft ook als voorbeeld dat het karakter(/deel) - "radikaal" voor water, samen met dat voor vis , het karakter voor "vissen/visserij" vormt.
Nederlands bijvoorbeeld heeft veel samengestelde woorden . Hoeveel "woorden" kent een Nederlander ? "maximumsnelheid" , "kinderopvangtoeslagaffaire" , technisch gezien unieke woorden .
https://onzetaal.nl/taaladvies/samenstellingAndere Europese talen stellen wat minder samen en dan telt het aantal woorden minder hard op.
Afhankelijk van context kan de betekenis van een teken ook wat verschuiven. (je kunt een analogie zien met homoniemen - (zit)bank vs (geld)bank , beurs (aandelen , of gekneusd), arm (weinig geld of lichaamsdeel) . )
Dit is ook een aardige uitleg over karakters, woorden van enkele karakters, basis bouwstenen van karakters, en de basis penseelstreken .
https://medium.com/@adrieng/a-simple-explanation-of-chinese-characters-50f922ebe4e6Er zijn enkele standaard-transcriptie systemen om Chinees in Latijnse letters (met accenten) om te zetten.
Het bekendste systeem heet Pinyin.
https://en.wikipedia.org/wiki/PinyinHet is een fonetisch schrift - een standaard manier om gesproken Mandarijn Chinees weer te geven , waar de Chinese karakters een 'teken' schrift zijn, ze geven een begrip weer, en worden op één manier uitgesproken in Mandarijn Chinees, maar heel anders in Kantonees-Chinees .(er zijn een fors aantal Chinese talen die meer of minder onderling verschillen. )
Maar anyway : als het naar een computer gaat, worden het uiteindelijk een serie van bytes.
En die series van bytes hebben frequenties , net als elke taal . Een Chinese systeembeheer die een nieuwe gebruiker [tekens lijken niet mogelijk] 01 / huanyíng01 (Welkom01) als password geeft , is net zo onhandig als z'n Nederlandse collega .
Je kunt hooguit speculeren dat in de typische dictionaries die westerse aanvallers gebruiken de chinese standaard passworden niet zo veel voorkomen.
Ik las ooit een paper over het succes van password cracking en de gebruikte dictionaries . De password files kwamen uit een universitaire omgeving (US, meen ik)- behoorlijk lang geleden . Met het toevoegen van een woordenboek van wat Chinese transcripties steeg meteen het succespercentage met een behoorlijk aantal procenten. Dus duidelijk een redelijk aantal studenten met Chinese achtergrond die dachten dat simpele passwords mits in Chinese transcriptie geschreven wel goed genoeg waren.
Aimgh leverde het toevoegen van wat Klingon of Elvish woorden ook nog enkele procentjes vondsten op.
Iemand met kennis van de Chinese taal die hier iets over kan melden?
Wel kun je stellen dat je met minder *random gekozen* Chinese karakters toe kunt versus random gekozen ascii-letters.
Dat is omdat een Chinees karakter veel complexer is . Een ascii-alphabet is ca 64 tekens groot, een Chinees 'alphabet' vele tienduizenden .
Diceware construeert passwords op basis van 7 willekeurig gekozen woorden uit een lijst van ca 7700 .
Je zou met dezelfde veiligheid 7 willekeurig gekozen Chinese karakters uit een lijst van ca 7700 kunnen kiezen.