giovedì 21 luglio 2011

La scienza della scelta delle password

Poco tempo fa ho preso uno sguardo ad alcune di recente superato i conti e ha scritto una breve analisi di Sony . I risultati sono stati allarmanti: le password erano relativamente breve (in genere 6 a 10 caratteri), semplice (meno di 1% ha avuto un carattere non alfanumerico) e prevedibile (più di un terzo erano in un dizionario di password comune). Qual è stato ancora peggio se fosse l'unicità, il 92% dei conti comuni nei sistemi Sony riutilizzare le password e anche quando ho guardato un sistema totalmente estranei - Gawker - il riutilizzo era ancora molto elevato, con oltre due terzi dei comuni indirizzi e-mail condividono la stessa password.

Ma c'era un problema importante ho lasciato senza risposta e che è stata come la gente sceglie le proprie password . Ora sappiamo che strutturalmente, password quasi sempre aderire a quello che noi consideriamo "cattive pratiche", ma come sono queste password derivano in primo luogo? Qual è il significato personale che causa a qualcuno di scegliere una password particolare?

Sembra che vi sono alcuni modelli molto riconoscibili nei dati. In realtà la stragrande maggioranza delle password aderiscono a solo una piccola manciata di pratiche di selezione comune. Questa è la ricerca interessante in quanto comincia a dare un po 'di comprensione del processo di pensiero degli individui che la creazione di password conformi alle linee guida deboli strutturali.

I dati di origine e di analisi dei processi

I dati che sto per analizzare proviene da una varietà di fonti, tra cui la Sony e violazioni Gawker ho fatto riferimento nel post precedente così come le altre Versioni LulzSEC compresi pron.com e una raccolta dei loro dati di accesso casuale. Per ognuna di queste ho niente di più di un indirizzo email e una password - non ci sono attributi altro account posso usare per iniziare a trarre conclusioni (cioè l'indirizzo fisico). Ci sono circa 300.000 conti in tutto quello che dovrebbe darci una sezione ragionevole croce con cui fare alcune osservazioni sulla scelta delle password.

Ci sono tre altre serie di dati di origine ho intenzione di utilizzare in questa analisi:

  1. Nomi delle persone: questo include una lista di circa 26.000 nomi comuni e cognome.
  2. Nomi di luogo: questo è tutto dalle città agli stati in paesi e comprende circa 32.000 voci.
  3. Dizionario Inglese: esattamente quello che sembra - circa 190.000 parole in un dizionario tipicamente inglese.

Ho intenzione di usare queste tre fonti di dati per fare alcune ipotesi su dove password potrebbe essere stato derivato da. Le tre liste di cui sopra sono aggregati da varie fonti e, mentre completa, sono certamente non è completa. La linea di fondo è che alcune partite di potenziali stanno per essere dimenticata e il numero complessivo sarà inferiore a quello che sarebbe se le liste fossero al 100%.

In corrispondenza password per le potenziali fonti ho intenzione di essere un po 'più liberale rispetto al solito, ignorando entrambi i casi e la punteggiatura. Mentre questi sono estremamente importanti per l'etropia la password , non hanno un ruolo da svolgere in termini di dove le persone traggono la loro password da. Se io uso "Troy" o "Troy" come password (e no, io non uso neanche!), O "Troy Hunt" o "troyhunt", ho ancora le derivate dalla stessa fonte logico. Inoltre, nella mia precedente analisi il 45% di tutte le password contenute solo caratteri minuscoli e, come ho detto prima, meno dell'1% ha avuto alcun tipo di punteggiatura comunque in modo che non farebbe la differenza per una parte significativa del set di dati.

Nell'analisi ho intenzione di iniziare con le fonti più personale - come il nome di qualcuno - e poi passare a fonti sempre meno personali come i luoghi, poi le parole del dizionario e vedere quante password correlati a ciascuno. In un caso come "Giugno" in cui potrebbe essere un nome o una parola del dizionario, apparirà in qualsiasi statistiche corro prima (nomi di persone, in questo caso), allora non saranno conteggiati nuovo in modo avremo una insieme discreto di fiammiferi. L'ordine dei risultati è più una priorità logica di uno di prevalenza.

Persone nomi

Ho iniziato con nomi di persone, perché un nome è semplicemente uno degli attributi più personali di identità di qualcuno. Ho anche il sospetto che di primo piano quando qualcuno arriva nei recessi della loro mente a venire con una password. Ora, naturalmente, il nome non è necessariamente il nome del titolare del conto, ma potrebbe essere il coniuge, i figli o anche il cane di famiglia. Inoltre, potrebbe essere un nome, un nome o un cognome.

Ecco come abbattere in termini di prevalenza all'interno della password impostata totale:

Le password derivati ​​da un nome di persona

Le password derivati ​​da un nome di persona

Che cosa questo grafico sta dicendo è che il 14% delle persone creano la propria password in base al nome di una persona . Che cosa significa questo aspetto? Beh, in realtà abbastanza prevedibili, ecco i primi tre nomi come password:

  1. maggie
  2. michael
  3. jennifer

Ma c'è un po 'di più per la storia, solo perché una password è derivato dal nome di una persona non significa che sia un match perfetto. Per esempio, anteponendo o aggiungere numeri per un nome è una pratica così popolare mentre "troy21" non può essere un partner perfetto per il mio nome, l'origine di esso è ancora chiaro.

Ci sono tre derivati ​​comune di un nome che spesso compaiono nelle password:

  1. L'aggiunta di numeri
  2. L'aggiunta di simboli (possibilmente con i numeri)
  3. Invertire il nome (con o senza numeri e simboli)

Il grafico sopra comprende le tre pratiche e la propensione di loro all'interno dei nomi di persone è ripartito come segue:

Struttura delle password derivati ​​da nomi di persone

Struttura delle password derivati ​​da nomi di persone

Ovviamente i numeri sono i favoriti e sono quasi esclusivamente aggiunto al nome piuttosto che preposto. Inoltre, il numero aggiunto è molto, molto spesso solo un "1". Numeri a due cifre, che rappresenta probabilmente un anno, dispongono anche di una certa frequenza (anno di nascita, forse?) Così come i numeri di quattro cifre che presumo implicherebbe la stessa cosa (sicuramente è fattibile in base al numero di serie).

L'uso dei simboli è abbastanza raro, ma poi di nuovo, come ho detto proprio all'inizio di questo post, meno dell'1% delle password nel mio precedente analisi aveva un simbolo in ogni caso quindi non grandi sorprese lì. I nomi sono invertiti ovviamente un tentativo di offuscare la password e diminuire la reperibilità. In realtà, un nome invertito è ancora lo stesso numero e tipo di personaggi così come password "Trebor", "nevets" e "samoht" sono ancora in corso di essere molto vulnerabili agli attacchi di forza bruta, come da tabella arcobaleno.

Luogo nomi

Un'altra pratica molto comune è quello di utilizzare il nome di un luogo della password. Questo potrebbe essere una città, uno stato o di un paese ed è probabilmente giusto pensare che questi luoghi hanno un certo grado di significato personale al creatore password. Ecco come prevalenti quelli nomi di luogo sono:

Le password derivati ​​da un nome di luogo

Le password derivati ​​da un nome di luogo

Quello che stiamo vedendo qui è che l'8% di tutte le password sono basate su un nome di luogo . I nomi dei luoghi più popolari inclusi:

  1. dallas
  2. Canada
  3. Boston

Il trucco con i nomi di luogo è che molto spesso potrebbero essere anche i nomi di persone (cioè Victoria), che non è sorprendente dato molti luoghi prendono il nome le persone. Allo stesso modo, sono molto spesso i nomi di dizionario (Sunshine esempio) e in entrambi i casi è semplicemente impossibile fare una supposizione su ciò che l'individuo pensava quando la password è stato creato. In entrambi i casi, però, il tema centrale è sempre la stessa: le password vengono derivate da parole comuni.

In termini di numeri, simboli e trucchi retromarcia, è un risultato abbastanza coerente con quello che abbiamo visto in precedenza con i nomi di persone:

Struttura delle password derivati ​​da nomi di luogo

Struttura delle password derivati ​​da nomi di luogo

Ancora una volta, il vecchio fedele suffisso "1" è più popolare. E 'come se la gente sa che dovrebbero mischiare vari tipi di carattere, ma prendono la via più facile invece di scegliere numeri veramente casuali e posizionandole in luoghi imprevedibili all'interno della password.

Dizionario parole

Ecco quello grande, e non è affatto sorprendente data la vasta selezione disponibile. Parole del dizionario sono di gran lunga la fonte più popolare di ispirazione password:

Le password deriva da una parola del dizionario

Le password deriva da una parola del dizionario

Un enorme 25% delle password sono derivati ​​direttamente dalle parole del dizionario. In realtà, è probabilmente un po 'più alto di questo come il mio dizionario aveva meno di un paio di centinaia di mille parole. E sono tutti solo in lingua inglese.

Prime fra i favoriti dizionario sono:

  1. password (oh cara)
  2. scimmia
  3. drago

Il primo probabilmente non dovrebbe essere una sorpresa, ma ancora, wow! La mia fonte password di diverse centinaia di migliaia i conti erano quasi due e mezzo migliaio di "password" password che non è solo una scelta piuttosto scarsa data la sua chiarezza in un dizionario, è anche uno follemente ovvio.

E 'una storia molto simile a nomi di luoghi e persone quando si tratta di mescolare le parole con un po' di casualità:

Struttura della password derivati ​​da parole del dizionario

Struttura della password derivati ​​da parole del dizionario

Affare come prima anche - prevalentemente suffissi e modelli prevalentemente numero prevedibile. Penso che stiamo vedendo un modello qui ...

Numeri

Ecco un'altra parte significativa delle password - numeri. Non voglio dire i numeri in combinazione con le parole, voglio dire, numeri e solo numeri . In realtà essi caratteristica piuttosto significativo:

Le password derivati ​​da numeri

Le password derivati ​​da numeri

Un totale di 14% delle password sono puramente numerico . Se questo sembra tipo di incredibilmente alto a voi, aspettate di vedere le tre combinazioni di numeri più popolari:

  1. 123456
  2. 12345678
  3. 123456789

Non credo che dobbiamo fare molto di speculazione su come questi sono stati ottenuti. Che cosa è un po 'più interessante però è la diffusione di lunghezze:

Lunghezza delle password puramente numerico

Lunghezza delle password puramente numerico

Perché è interessante? Beh in primo luogo, rientrare in una fascia di lunghezze password numerica che vanno da 1 (sì, 1, e c'è un mucchio di 'em) a 21, 83% delle password sono o numeri quattro, sei o otto lunghi. Si tratta di una propensione per le lunghezze la password di numero pari o qualcos'altro?

Per quattro cifre password, la diffusione è abbastanza ampiamente distribuito in termini di numero di occorrenza, almeno una volta si ignora "1234" (il più comunemente usato password di quattro cifre di un fattore dieci). Tuttavia, c'è un bel prevalenza di numeri che potrebbe facilmente rappresentare negli ultimi anni (1984 è molto popolare), così ho il sospetto c'è spesso un significato data base. L'altra cosa da considerare è che, data la propensione per il riutilizzo password e il fatto che molti numeri PIN di quattro cifre, c'è una buona probabilità che vengono utilizzati questi numeri il bagaglio a mano di qualcuno o - gasp! - È quello che usano per estrarre soldi da un bancomat.

La cosa sei cifre è che molto, molto spesso rappresentano le date in formato GGMMAA (o MMDDYY per gli americani). Gli intervalli di ogni tre coppie di numeri nella lista delle password suggeriscono c'è un'alta probabilità che tutte queste password effettivamente si riferiscono a date, assumedly di qualche significato personale al creatore.

E per quanto riguarda l'alta prevalenza di otto numeri di cifra? C'è un certo grado di incontrare un numero formato DDMMYYYYY (o equivalente americano), ma per la maggior parte, non c'è alcun motivo evidente. Sulla base di quello che abbiamo visto finora non c'è quasi certamente un significato personale per i numeri ma non è evidente dal loro formato, almeno non al di là di quelle che rispettano ovvio, i modelli memorabili come "12345678" o "11223344".

Potrebbe sembrare un liberale po 'avere una categoria ad hoc per tutte le password di un tipo di carattere, ma se si considera il set di caratteri estremamente limitato - dieci invece di 95 - ci sono ovviamente alcune ragioni molto specifiche solo per scelta dei numeri.

Doppie parole

Stiamo ottenendo nei modelli più astratto, ma qui quello che si verifica un po 'le parole è doppio (cioè "troytroy"):

Le password composta di parole doppie

Le password composta di parole doppie

Anche in questo caso, stiamo parlando di piccoli numeri ora, e meno del 3% imposta quasi incendiare il mondo, ma c'è un modello chiaro comunque. Ecco cosa c'è popping up più frequenti:

  1. blahblah
  2. poopoo
  3. lovelove

Oltre a ripetere parole, ci sono anche modelli di raddoppiare su altri caratteri casuali. Si potrebbe ipotizzare il processo di pensiero è che questa pratica sta permettendo password semplici di lunghezza molto breve per essere letteralmente raddoppiato le sue dimensioni, ma naturalmente in molti casi, sono ancora breve (otto caratteri o meno), minuscole stringhe alfanumeriche che è un piuttosto pattern di base.

Le password trovate all'interno di indirizzi e-mail

Questo è un tentativo piuttosto sfacciato a semplificare l'intero processo di accesso - perché la lotta di ricordare una password quando si può semplicemente utilizzare il componente identità dell'indirizzo e-mail? Confuso? Sarebbe come me prendere il fuori "troyhunt" di troyhunt@hotmail.com e utilizzando tale come la mia password. C'è un po 'di che andare qui:

Le password derivati ​​da l'indirizzo e-mail

Le password derivati ​​da l'indirizzo e-mail

Ok, meno del 3% è un numero piccolo ma ancora una volta - wow! - Le persone effettivamente fare questo! Lasciatemi illustrare con il dominio esclusi quindi c'è un certo grado di riservatezza mantenuto:

  1. E-mail: murphy666 @ ... Password: murphy666
  2. E-mail: baolihua @ ... Password: baolihua
  3. E-mail: racecar73 @ ... Password: racecar73

L'ispirazione per queste password è abbastanza chiaro - nessuna speculazione più bisogno!

Frasi brevi

Questo è un po 'difficile da quantificare come l'unico modo di identificare le frasi era letteralmente bulbo oculare i dati e creare una lista frase base degli eventi più comuni.Tuttavia, ho pensato che valeva la pena perseguire e, mentre i numeri di seguito sono inevitabilmente inferiore al numero reale (non ho letto in ogni password), so per esperienza precedente che brevi frasi sono spesso - e correttamente - pensato di essere un sicuro sotto forma di una password . Ecco cosa ho trovato:

Le password che sono frasi brevi

Le password che sono frasi brevi

Che tipo di frasi stiamo guardando? Ecco i pochi più popolari:

  1. TrustNo1
  2. letmein
  3. iloveyou

Il primo è un po 'divertente dato il contesto e che appariva come password agente Fox Mulder in X-Files della serie (non un grande modello di ruolo password!) Gli altri sono, ovviamente, semplice e facile da ricordare che è un modello ripetuto durante la maggior parte delle frasi rimanenti. Sì, si aggiunge la lunghezza e la varietà (almeno in un certo senso dizionario), ma ancora una volta, sono brevi, prevalentemente alfabeto-centric password minuscolo. L'altra cosa è che sono frequentemente presenti nei dizionari la password (nota - non dizionari inglesi, invece liste di password comuni). Infatti "letmein" e "iloveyou" possono essere entrambi in fondo il popolare dizionario pasword di darkOde.lst .

Modelli di tastiera

Anche se ora stiamo scendendo in piccoli numeri, i modelli di tastiera sono stati a lungo sostenuta da alcuni come un mezzo "sicuro" di creazione di password. La teoria è che non appaiono nei dizionari di lingua inglese (anche se spesso nei dizionari password), e sono facili da ricordare come sono basate su pattern. Ecco come le caratteristiche della serie di dati:

Le password che sono modelli di tastiera

Le password che sono modelli di tastiera

Di nuovo, questo si basava su di me manualmente l'individuazione delle tipologie così inevitabilmente ho perso un paio, ma di certo ho preso un sacco di quelli ad alta frequenza.Ecco il tipo di modelli sono regolarmente vedendo:

  1. QWERTY
  2. asdfgh
  3. asdf1234

Ovviamente in un caso come l'ultimo esempio, stanno cercando di mescolare le cose un po ', ma il modello è ancora molto chiaro:

Modello di tastiera per la password

Alcuni di quelli più creativi di iniziare a prendere direzioni diverse attraverso la tastiera o aggiungere un po 'di casualità per la ricorrenza di lettere e numeri ma la pratica rimane lo stesso: prevedibile.

Relativi al sito

Mentre questo è un risultato molto piccolo in termini di percentuali, ho pensato che fosse un modello utile chiarire quanto piuttosto un approccio diverso per la derivazione di una password. In questo modello, la password è un legame molto diretto al sito in cui è creato, sia in base al nome o altri attributi relativi alla natura del sito. Ecco come si rompe:

Le password relative al sito sono creati su

Le password relative al sito sono creati su

Permettetemi di mettere in questo contesto:

  1. Sito: Gawker Password: Gawker
  2. Sito: Sony Pictures Password: sony123
  3. Sito: pron.com Password: ilovepron

Quindi, ancora una volta abbiamo la password che sono facili da recuperare sulla base di un attributo memorabile. Naturalmente questo è anche un attributo piuttosto evidente (è di guardare in faccia quando si va al di accesso), e su questa base da sola, in realtà non si forma una password molto robusto. Per inciso, alcuni di questi sono piuttosto divertenti, in particolare quelli di pron.com:)

Tutto il resto

Quindi cosa che lasciano? Bene, un numero piuttosto elevato di password che non soddisfano modelli riconoscibili o semplicemente scivolato attraverso il mio filtri (la seconda è altamente probabile e ci sarebbe un numero significativo di password in questa categoria).Ecco quel che resta:

Le password non derivati ​​da fonti nell'analisi sopra

Le password non derivati ​​da fonti nell'analisi sopra

Alta prevalenza, esempi tipici sono:

  1. thx1138 (risulta questo è un film di quaranta anni fa )
  2. gundam (in realtà una serie anime )
  3. ncc1701 (nome in codice per la USS Enterprise in Star Trek )

Quindi c'è tutta una serie di password là fuori che, pur non verranno raccolti da uno dei motivi di cui sopra, di fatto si riferiscono alla cultura popolare. Questa è una fonte abbastanza evidente di ispirazione, anche se uno che è difficile da definire in un elenco di parole insieme.

Poi naturalmente ci sono semplicemente le password che non aderiscono ad alcun modello individuabile, per esempio "mw818283" . Il fatto è, però, questi rientrano nella minoranza e anche se sono "forti" (lungo, casuale, unico), sono ormai comunemente disponibili nei dizionari password da utilizzare in futuri attacchi di forza bruta. Perché il mio intero database delle password è venuto da siti compromessi che sono ora disponibili on-line,la realtà è che nessuna di queste password dovrebbero essere utilizzati di nuovo.Sempre.

Riassunto

Allora, cosa facciamo di tutto questo? Ci sono alcune ovvie conclusioni:

  1. Le password sono ispirate parole di significato personale o altri disegni che memorabile.
  2. I tentativi di offuscare o rafforzare le password di solito seguono schemi prevedibili.
  3. Password casuali sono veramente tutte, ma inesistenti - sono meno dell'1% del set di dati.

Una parte importante del problema è chiaramente siti web delle politiche password molto lassista (o del tutto assenti basato su quello istanze di carattere), dove per lo meno, ci dovrebbe essere un criterio minimo robusto. Quanto in alto la barra dovrebbe essere impostato? Beh, questo è un altro argomento di molte discussioni e non ci sono evidenti implicazioni usabilità. Poi c'è l'idea di prendere requisiti della password ad un livello completamente nuovo e fare quello che Hotmail ha appena fatto attivamento non consentendo password vunerabili .

Ma l'intenzione di questo post è stato sempre quello di identificare come le persone sono al momento di scegliere le proprie password e abbiamo buona conoscenza in quel momento.Naturalmente la domanda successiva è "come dovrebbe essere la gente sceglie le password "? La risposta è semplice: l'unica password sicura è quella che non si riesce a ricordare .

Corso SQL Server - Corso Hyper-V -Corso Windows Server

Certificazione Microsoft


Nessun commento:

Posta un commento

Nota. Solo i membri di questo blog possono postare un commento.