BFi numero 13 file 14

Published in
· 22 Aug 2019
  

================================================================================ 
---------------------[ BFi13-dev - file 14 - 20/08/2004 ]----------------------- 
================================================================================ 

 
-[ DiSCLAiMER ]----------------------------------------------------------------- 
        Tutto il materiale contenuto in BFi ha fini esclusivamente informativi 
        ed educativi. Gli autori di BFi non si riterranno in alcun modo 
        responsabili per danni perpetrati a cose o persone causati dall'uso 
        di codice, programmi, informazioni, tecniche contenuti all'interno 
        della rivista. 
        BFi e' libero e autonomo mezzo di espressione; come noi autori siamo 
        liberi di scrivere BFi, tu sei libero di continuare a leggere oppure 
        di fermarti qui. Pertanto, se ti ritieni offeso dai temi trattati 
        e/o dal modo in cui lo sono, * interrompi immediatamente la lettura 
        e cancella questi file dal tuo computer * . Proseguendo tu, lettore, 
        ti assumi ogni genere di responsabilita` per l'uso che farai delle 
        informazioni contenute in BFi. 
        Si vieta il posting di BFi in newsgroup e la diffusione di *parti* 
        della rivista: distribuite BFi nella sua forma integrale ed originale. 
-------------------------------------------------------------------------------- 

 
-[ HACKiNG ]-------------------------------------------------------------------- 
---[ DiSPERSiNG iNF0RMATi0N F0R FUN AND PR0FiT ]-------------------------------- 
-----[ valvoline <valvoline@s0ftpj.org> http://www.s0ftpj.org ]----------------- 

 
             Dispersing Information for Fun and Profits 
                       valvoline@s0ftpj.org 

1. Intro 

L'informazione digitale e' bella perche' manipolabile. E' possibile duplicare, 
modificare, leggere ed alterare la sorgente di informazione ottenendo infiniti 
nuovi ceppi indistinguibili dall'originale perche' essi stessi originali, in 
quanto frutto di successive - possibilmente ripetute - manipolazioni. Ogni 
flusso di dati che transita attraverso gli infiniti canali informatici puo' 
essere catturato, analizzato, elaborato ed alterato da chiunque con un minimo 
di interesse, strumenti e capacita'. Invero, ritengo che sia questa la vera  
essenza dell'hacking del digitale, il reale potere che si cela dietro ogni  
kilobyte di dati che vediamo scorrere davanti ai nostri occhi. 
  
Esistono svariati metodi per fronteggiare il dilemma dell'originale digitale 
ed innumerevoli sono le tecniche di hashing e checksum con cui potere  
equipaggiare i propri documenti, per evitare o, quantomeno, notificare e  
rendere evidenti ai possibili utenti le modifiche - autorizzate o meno -  
intervenute sul file in esame.  
   
In quest'ambito, nel contesto dell'informazione digitale e della sua facile  
fruibilita' ed alterabilita', si inserisce l'argomento di quest'articolo.  
La connettivita' globale e l'uso onnipresente di internet anche per comprare 
la pizza, ha reso ogni computer affacciato al mondo un potenziale nodo di  
una gigantesca matrice difficilmente tracciabile, visualizzabile ed  
identificabile. Il continuo venir meno dei diritti informatici e di  
espressione, inoltre, e' un fatto innegabile oltre che determinante al fine  
di delineare un quadro introduttivo di quello che sara' il nostro campo di 
azione nelle prossime pagine. 

Proviamo a concentrarci e pensiamo alla nostra situazione attuale: hai  
internet ma non puoi utilizzarla troppo, perche' se raccogli roba catalogata 
come illegale sei suscettibile di sanzione. Ti danno spazio gratuito ma non  
puoi pubblicarci, perche' devi prima fare notifica all'ente per la tutela e  
regolamentazione degli spazi internet. E' tutto un continuo mettere alla prova 
il livello di sopportazione dell'uomo medio: ti do' la donna, ma non puoi  
toccarla. Ti do' le armi, ma non puoi usarle. Sei libero, ma controllato. 
Puoi guardare, ma non puoi mangiare. Fortunatamente non e' tutto cosi' nero. 
La comunita' di cui il villaggio globale e' costituito, ha pensato - e qualcuno 
li ha pure implementati - metodi e tecniche per fronteggiare questo disastro: 
sistemi di pubblicazione anonima non deterministici e reti p2p che  
ricostruiscono in maniera anonima il sistema di instradamento IP.  
Argomenti che, tuttavia, esulano dallo scopo di quest'articolo.  

Punto saliente e fulcro, se volete, di quest'articolo e' un altro. Quello su  
cui concentreremo la nostra attenzione e' il concetto di dispersione 
dell'informazione. Disperdere l'informazione in piccole porzioni per poi poterla 
ricostruire quando e come serve. E' come se giocassimo ad un vecchio gioco che 
si faceva dalle mie parti: si disegnava su un foglio di carta uno schizzo di 
fantasia e si suddivideva il foglio in tanti pezzettini che venivano dati ai 
giocatori. Se la suddivisione era stata fatta bene, nessuno conosceva il disegno 
originale: soltanto il disegnatore ne era a conoscenza. Ognuno provava a trovare 
una sua soluzione al disegno in base al pezzo fornitogli ed alle indicazioni via 
via date dal disegnatore. Se non si riusciva a trovare la soluzione, si poteva  
chiedere ad uno o piu' giocatori di aggregarsi in comunita' e condividere i  
propri frammenti del disegno originale, cosi' da avere un quadro piu' ampio su 
cui fare illazioni. Vinceva chi riusciva a trovare la soluzione con il minor  
numero di raggruppamenti. Forse l'esempio non e' completamente pertinente con  
gli obiettivi di quest'articolo, ma rende l'idea di quello che faremo nelle  
pagine a seguire:  

- Dispersing. Dividere l'informazione originale in frammenti, in maniera che 
  nessuno di essi sia portatore di informazioni sensibili rispetto al documento 
  originale. 

- Rebuild. Ricostruire l'informazione originale, utilizzando esattamente n  
  frammenti scelti a caso tra gli m generati, con n < m . 

Successivamente, proveremo a trovare uno spazio applicativo per quanto ideato ed 
implementato, cercando di trovare possibili soluzioni ai problemi sopra esposti. 

Da qualche parte dovevo anche mettere i disclaimer e tutta l'altra roba che si 
mette in ogni articolo di BFi che si rispetti; visto l'evento speciale - e visto 
che la carta costa, l'entropia terrestre aumenta e la minestra che si scrive e' 
sempre la stessa - ho pensato di risparmiare il tutto proiettandovi direttamente 
nel vivo del problema. Buona lettura!  

 
2. State of the Art 

Chiunque abbia un minimo di dimestichezza con internet e le sue applicazioni si 
sara' trovato ad utilizzare un sistema di file sharing e/o distribuzione di  
contenuti. OpenNap, EMule, BitTorrent. Non fa differenza. L'idea centrale e' 
sempre la stessa: mettere al centro di tutto l'utente che condivide contenuti ed 
utilizzare questo fattore discriminante come sistema di crediti per agevolare o 
meno utenti piu' "altruisti". 

Dal momento che i sistemi di comunicazione piu' comuni sono sistemi asincroni 
che sfavoriscono l'upstream dell'utente, quasi tutti i sistemi che fanno 
file-sharing e distribuzione di contenuti mettono a disposizione un sistema per 
parallelizzare il download di un determinato contenuto. In questo modo e'  
possibile segmentare un download in piu' sorgenti, velocizzando il tutto.  
L'approccio utilizzato e' quello di segmentare in offsets assoluti l'intero 
documento ed instaurare una sessione di download diversa per ogni chunk 
(pezzetto) partizionato. E' ovvio, comunque, che ogni partecipante deve avere a 
disposizione l'intero documento per essere in grado di esaudire una richiesta  
di segmentazione effettuata da un possibile interessato. L'informazione, quindi, 
e' brutalmente duplicata su n diversi siti. 

Dal momento che il costo a gigabyte di archiviazione scende di giorno in giorno, 
non e' questo il reale problema che ci troviamo ad affrontare. Quello che, 
invero, risulta essere un grave problema e' invece la distribuzione di contenuti 
soggetti a copyright o comunque con un alto grado di confidenzialita'. 
Se vogliamo distribuire un documento rippato la notte prima da un grosso server 
di una grossa multinazionale, dobbiamo metterlo online per intero attraverso un 
sistema di file-sharing. L'alternativa sarebbe quella di distribuire il  
contenuto attraverso un sistema di pubblicazione anonima, stile freenet, ma dal 
momento che l'organizzazione del sistema stesso e' caotica, nessuno ci assicura 
che il contenuto sara' disponibile sempre e comunque per la comunita'.  
Il prezzo dell'anonimato e dell'arrangiamento caotico in maniera raw si paga in 
qualche modo. Un'altra alternativa sarebbe quella di distribuire il contenuto 
attraverso canali privati sotto forma di documenti crittografati. Anche questo 
non e' accettabile per una pubblicazione di massa del contenuto. Bisogna 
supporre, infatti, che si abbia a disposizione un sistema noto di crittografia 
pubblica. Inoltre i contenuti non sarebbero accessibili in maniera totalmente 
pubblica, in quanto la distribuzione avverrebbe per vie private e confidenziali. 

Proviamo a riassumere un quadro di quello che si puo' fare allo stato attuale 
delle cose: 

- pubblichi il documento su un sistema di file-sharing ma lo devi mettere  
  completamente a disposizione. Questo si ripercuote su due aspetti dello stesso 
  problema: dispendio di spazio ed esposizione diretta ad eventuali rischi sui 
  contenuti messi a disposizione; 

- pubblichi il documento su un sistema di pubblicazione anonima quale freenet, 
  ma devi essere conscio che il tuo contenuto non e' soggetto a nessuna 
  gerarchia e regola, quindi non e' assicurata la sua persistenza in istanti 
  diversi sullo stesso segmento di rete. 

Non sarebbe bello riuscire a combinare le potenzialita' e l'immediatezza di un 
sistema di modello di file-sharing classico, con la potenza dell'anonimato messa 
a disposizione da un sistema di pubblicaziona anonima? 

Modelli di file-sharing anonimo stanno cominciando ad affacciarsi timidamente 
sul mercato, anche se il loro uso e' ancora confinato ad utenze amatoriali 
- o psicopatiche -. Mute e' un esempio eclatante di quest'ultimo concetto. 
Utilizza un sistema di arrangiamento caotico dei nodi ed attraverso un complesso 
sistema di routing multi-pathing - che ricorda molto la strategia adottata dalle 
formiche per procurarsi il cibo e tornare alla tana - riesce a distribuire 
informazioni e messaggi preservando l'anonimato dell'utente. Un sistema di 
overlay network, insomma, che tenta di risolvere il problema dell'addressing IP 
pubblico, sostituendogli sopra un sistema di identificativi pseudo-casuali e non 
riconducibili ad un IP reale. Ma se qualcuno ascolta la vostra connessione? Il 
contenuto ed il documento continuano a viaggiare in chiaro verso la vostra 
macchina e le connessioni punto-punto sono comunque ricostruibili da un attento 
ascoltatore in the middle. E' anche vero che potete metterci sopra un 
crypto-layer - quale SSL, come d'altronte fa MUTE - che vi ponga al sicuro da 
orecchie e sguardi indiscreti. Tuttavia, e' leggittimo farsi alcune domande: 
l'overhead di un'operazione di questo tipo e' davvero proponibile? 

Facciamo un attimo mente locale: connessioni tramite multi-hopping caotico, un 
layer che si sostituisce all'IP Addressing per la consegna dei messaggi,  
arrangiamento non gerarchico e - ciliegina sulla torta - un layer crittografico 
che mette in sicurezza quello che trasferite. Anche se le risorse macchina sono 
sempre meno costose, non credo che sia molto corretto farne un abuso!  
Ricadremmo sulla stessa sponda dei sostenitori dei meta-linguaggi e della  
programmazione mega-complessa-oob^2! Non vogliatemene, ma non sono un 
sostenitore di queste tecnologie! ;) 

Se riuscissimo a spezzare l'informazione che desideriamo pubblicare sul nostro 
sistema di file sharing, se fossimo in grado di assicurare che NESSUNO in  
possesso di un frammento sia in grado di fare elucubrazioni sul suo contenuto e 
se a questo aggiungiamo che sarebbe desiderabile avere un modo per ricostruire 
l'informazione utilizzando soltanto un subset random dei frammenti generati 
utilizzando una chiave di ricostruzione unica, saremmo ad un punto di svolta 
del nostro problema! Basterebbe trovare un modo ottimale per dividere i  
frammenti tra i partecipanti! 

Le cose, come al solito, non sono mai cosi' immediate e semplici come sembrano, 
motivo per cui e' meglio fare un piccolo compendio su quello che sono le  
tecniche che piu' si avvicinano alle nostre esigenze, per poi far vedere la  
soluzione che mi sento di proporre per risolvere quest'annoso problema. 

2.1 IDA: Information Dispersal Alghorithm 

All'inizio degli anni '90, Michael Rabin propose IDA (Information Dispersal 
Algorithm), come una potenziale tecnica per raggiungere gli obiettivi di 
sicurezza ed efficenza di cui sopra, utilizzando un livello di ridondanza molto 
piu' piccolo e mantenendo su di uno specifico sito informazioni soltanto 
parziali. L'idea principale e' di usare una chiave segreta per disperdere 
l'informazione di un documento F in n pezzi distribuiti in n siti (hard disks 
e/o macchine remote). Il documento F puo' quindi essere ricostruito attraverso 
m pezzi generici, con m <= n . Il punto chiave e' che ogni pezzo e' di grandezza 
|F| / m , dove |F| e' la grandezza in bytes del documento F . 
Conseguentemente, il numero totale di bytes e' (n/m) * |F|. Dal momento che 
possiamo scegliere n in maniera che (n/m) ~= 1 , il metodo e', in termini di 
spazio occupato dalle singole componenti, spazialmente efficiente. 

In questa sezione, spiegheremo come funziona IDA e come e' stato implementato, 
focalizzando la nostra attenzione sulle operazioni necessarie per un corretto 
espletamento dell'algoritmo. 

Sia F il file originale (informazione), che vogliamo disperdere. Il file 
originale, F, puo' essere visto come una sequenza (o uno stream) di dati nella 
forma: F=b_1 b_2 b_3 b_4,... dove ogni b_i in questo stream, puo' essere visto 
come un intero. In generale, per disperdere questo stream, scegliamo un set di 
n vettori o chiavi segrete ( v_1, v_2, ..., v_n ) oguna di lunghezza m . Le 
chiavi devono soddisfare certe condizioni di indipendenza lineare. 

Sia A_nm l'array dove le righe sono i vettori selezionati. A rappresenta una 
mappatura da uno spazio m-dimensionale a uno spazio n-dimensionale; in altre 
parole, da una sequenza di m elementi ad un'altra sequenza di n elementi. Per 
disperdere il file F, semplicemente mapperemo ogni sequenza di m elementi da F 
in una nuova sequenza di n elementi usando la trasformazione A. Ogni elemento 
della sequenza risultante e' inviato ad un differente spazio di salvataggio 
(le macchine, che nel nostro caso, partecipano al network) e mantenuto li'. 
Quindi inviamo ogni elemento m di F, ad ognuno degli n siti. In definitiva, per 
disperdere l'intero file F, necessiteremo di inviare |F| / m elementi ad oguno 
degli n siti. 

Adesso supponiamo che vogliamo ricostruire il file originale F dai chunks 
dispersi come descritto sopra. Quest'operazione e' svolta leggendo ognuno degli 
m chunks; se sono disponibili meno di m pezzi, l'operazione non e' possibile. 
Al contrario, se sono disponibili piu' di m pezzi, allora una qualunque 
combinazione degli m pezzi e' adeguata al nostro scopo. I chunks disponibili 
siano: s_1, s_2, s_3, ..., s_m. Sia, inoltre, B_mn l'array le cui righe sono 
( V_{s_1}, V_{s_2}, ..., V_{s_m} ). B, mappa le sequenze di m elementi di F 
in sequenze di n elementi, le quali grazie alla dispersione effettuata sopra, 
sono mantenute in n siti differenti (s_1, s_2, ..., s_n). 

Per ricostruire i primi elementi di F, abbiamo bisogno di raccogliere il primo 
elemento da oguno degli m luoghi di salvataggio. Una volta ottenuta 
quest'informazione, effettueremo la corrispondente operazione di trasformazione 
inversa: T=B^{-1}. Da notare, che se le chiavi sono state scelte in maniera 
appropriata, almeno un inverso e' garantito esistere. 

2.1.2 Disperdiamo l'informazione 

La dispersione e' semplicemente una A-Trasformazione (n X m). Assumiamo per 
semplicita' n = 4 ed m = 2. Nella nostra spiegazione semplificativa, ogni  
elemento dello stream di F e' un byte (8bit), diviso in due pezzettini 
(4bit ciascuno). 

   | (V_0)^T |   | a_00   a_01 | 
   | (V_1)^T |   | a_10   a_11 | 
A= | (V_2)^T | = | a_20   a_21 |  
   | (V_3)^T |   | a_30   a_31 | 

Dove, V_i e' l'i-esima chiave-vettore ed oguno dei a_{ij} e' un numero  
esadecimale. Siano  (b_0 b_1)^T le due cifre decimali (un totale di 8bit). 
Per disperdere questo pezzo di informazione. usiamo la trasformazione A, come 
segue: 

| c_0 |   | a_00   a_01 |    
| c_1 |   | a_10   a_11 |   | b_0 | 
| c_2 | = | a_20   a_21 | X |     | 
| c_3 |   | a_30   a_31 |   | b_1 | 

Dove, c_i e' la cifra esadecimale, inviata all'i-esimo luogo di salvataggio. 

2.1.3 Ricostruiamo l'informazione 

Siano i chunks s_1 ed s_2 non alterati. La trasformazione di ricostruzione e'  
in questo caso, una matrice (2 X 2)^T, del tipo: 

| (V^T)s_1 |   | t_00   t_01 |   
|          | = |             | 
| (V^T)s_2 |   | t_10   t_11 | 

Sia (c_0 c_1)^T la rappresentazione di due cifre esadecimali (un totale di 8bit) 
estratta dai due chunks di cui sopra. Per ricostruire il byte originale 
dell'informazione, usiamo una trasformazione, T, come segue: 

| b_0 |   | t_00   t_01 |   | c_0 | 
|     | = |             | X |     | 
| b_1 |   | t_10   t_11 |   | c_1 | 

 
3. L'aritmetica "alternativa" - Aritmetica dei Polinomi Irriducibili 

Tutte le operazioni (formalmente, addizione e moltiplicazione) richieste per IDA 
devono essere riportate usando l'aritmetica dei polinomi irriducibili - IPA -, 
dove gli interi sono visti come polinomi in un campo finito Z_p. Ad esempio, 
usando p = 2 - una scelta ovvia per applicazioni digitali - gli interi sono  
rappresentati come polinomi con coefficenti binari. Per esempio, le cifre 
esadecimali da 0 a 15, rappresentate in IPA sono le seguenti: 

0000=0 
0001=1 
0010=x 
0011=x+1 
0100=x^2 
0101=x^2+1 
0110=x^2+x 
0111=x^2+x+1	 
1000=x^3 
1001=x^3+1 
1010=x^3+x 
1011=x^3+x+1 
1100=x^3+x^2 
1101=x^3+x^2+1 
1110=x^3+x^2+x 
1111=x^3+x^2+x+1 

In un IPA con 16 elementi,tutte le operazioni sono eseguite modulo un polinomio 
irriducibile di 4^o grado che non puo' essere diviso da nessun polinmio di 3^o 
grado o minore). Per esempio, x^4+x+1 e' irriducibile di 4^o grado. 

3.2 IPA - Addizione 

Per sommare due interi, sommiamo i loro polinomi corrispondenti. Questo e' fatto 
sommando (modulo 2) i coefficenti delle potenze corrispondenti. La somma  
seguente e' un esempio di somma fatta in IPA: 

(5 + 6) = (x^2+1) + (x^2+x) = (x+1) = 3 

E' immediato notare che l'addizione e', semplicemente, un OR-esclusivo (XOR) 
bit-a-bit delle rappresentazioni binarie degli interi; proprio su questa fatto, 
e dall'osservazione che i calcolatori riescono a gestire molto velocemente le 
operazioni binarie, si basa la nostra libreria. 

3.3 - IPA - Moltiplicazione 

La moltiplicazione e' leggermente piu' complessa. Per moltiplicare due interi, 
moltiplichiamo i loro polinomi corrispondenti. Se il polinomio risultante e' di 
grado minore di quello del polinomio irriducibile (4 nel nostro caso), allora  
abbiamo trovato la rappresentazione polinomiale del risultato dell'operazione. 
Altrimenti, dobbiamo prendere il resto. Ancora una volta, tutte le addizioni e 
moltiplicazioni sono eseguite modulo 2. Il seguente esempio mostra una 
moltiplicazione fatta usando (x^4+x+1) come polinomio irriducibile: 

(3 * 10)= 
=(x+1)(x^3+x) 
=(x^4+x^3+x^2+x) mod (x^4+x+1) 
=(x^3+x^2+1) 
=13 

Il metodo piu' semplice, per una implementazione software di quanto spiegato, 
potrebbe essere una tabella di controllo (lookup) in cui andare a trovare i 
risultati/valori. Una implementazione piu' efficente, scalabile ed elegante, 
prediligera', invece, l'uso di shift e xor per fare quanto detto sopra. 
Cerchiamo di capire meglio quanto spiegato. 

Sia 

X = x_3 x_2 x_1 x_0 

ed 

Y = y_3 y_2 y_1 y_0  

la rappresentazione binaria di due cifre esadecimali da essere moltiplicate, 
dove il risultato e' 

Z=z_3 z_2 z_1 z_0 

La moltiplicazione di numeri binari si riduce a shift e somme successive; nel 
nostro caso di sopra, sono richiesti esattamente 4 passi di shift/somme (uno 
per ogni bit di Y). In ognuno dei passi, il valore accumulato: 

W = w_3 w_2 w_1 w_0 

inizialmente posto a 0000, e' shiftato a sinistra di un bit e se il valore 
corrispondente di Y e' 1, X e' sommato al valore accumulato ed il risultato e' 
passato al prossimo passo. Il numero risultante, non puo' essere usato 
direttamente dal momento che la rappresentazione polinomiale di questo 
risultato, potrebbe essere di 4^o grado (o piu' alto); ed il resto di questo 
risultato dovrebbe essere computato usando x^4+x+1 (siamo nell'esempio di 
prima). Calcolare questo resto, significa che necessitiamo di eseguire 
sottrazioni successive. Fortunatamente, la sottrazione (modulo 2) e' uguale  
alla somma (modulo 2). Queste sottrazioni possono essere svolte, dentro ogni 
passo di quelli descritti sopra (shift/somma); quindi, non hanno necessita' di 
essere accumulati fino alla fine della moltiplicazione. Infine, osserviamo che 
al piu' e' richiesta una sottrazione dentro ogni passo della moltiplicazione, 
dal momento che in ogni passo il grado del risultato accumulato non puo' essere 
incrementato piu' di uno, e conseguentemente, sottraendo il polinomio  
irriducibile x^4+x+1 solo una volta, garantiamo che il risultato accumulato  
rimarra' di terzo grado (o meno). 

Uno scheletro dell'algoritmo, da implementare - non preoccupatevi, piu' di 
tanto, nel codice sorgente e' gia' tutto implementato sotto forma di librerie 
standard ANSI C! - su questa base, puo' essere riassunto in forma nel modo 
seguente: 

w4 = 0; w3 = 0; w2 = 0; w1 = 0; w0 = 0; 

for(i=3; i >= 0; i--) { 
    w4 = w3; 
    w3 = w2 XOR (x_3 * y_i); 
    w2 = w1 XOR (x_2 * y_i); 
    w1 = w0 XOR (x_1 * y_i); 
    w3 = (x_0 * y_i); 
    w1 = w1 XOR w4; 
    w0 = w0 XOR w4; 
} 

Questo algoritmo rappresenta la base di quello implementato nella nostra 
libreria. In realta' quello che viene fatto non e' un ciclo di 4 passi di 
shift/add, che abbiamo visto in via semplificativa, ma in maniera piu'  
generale viene ciclata con un for l'intera struttura di messaggio da 
splittare, vista come array, eseguento passo per passo le operazioni di XOR e 
shift con maschere per sezione, usando delle tabelle di lookup per la 
corrispondenza polinomio-elemento, in maniera da velocizzare le operazioni. 

 
4. Mettiamo In pratica quanto imparato 

4.1 La libreria di dispersione 

Allo stato attuale delle cose abbiamo un po' di conti esoterici che dimostrano 
come splittare un gruppo di bit ed ottenerne degli altri, in numero maggiore, 
che contengono come in un subset tutti gli altri. Proviamo a vedere di tirare 
fuori del codice funzionante, per dare in pasto un file e tirare fuori n-chunks 
che contengono in maniera dispersa l'informazione originale. 

/* 
   ida splitting routine. we pass filename to split, num of min packets,  
   num of extra packets, and field for operations... 
*/ 

unsigned long ida_start(char *filename, int num_msg_pkts, int num_extra_pkts, 
                        int field_size) { 

 
   /* local variables skipped here... 
      see, instead, the source code */ 
       
    gettimeofday(&tp, &tzp); 
    srand48(tp.tv_usec); 
    fseek(fp, 0, SEEK_END); 
    fsize = ftell(fp); 
    //get the num of segments in which splits the original files 
    num_segments=get_segments(field_size, num_msg_pkts, fsize); 
     
    //initialize the parameters and store keys into sp_struct 
    retval=init_params(num_msg_pkts,num_extra_pkts,field_size, 
                                     num_segments, &sp_struct);   
    share_struct.sp = &sp_struct; 
    msize=num_msg_pkts*field_size*num_segments*sizeof(u_int32); 
    share_struct.message = (u_int32 *) malloc(msize); 
    esize=num_extra_pkts*field_size*num_segments*sizeof(u_int32); 
    share_struct.shares = (u_int32 *) malloc(esize); 
    memset(share_struct.shares, 0, esize); 
    memset(share_struct.message, 0, msize); 
    fseek(fp, 0, SEEK_SET); 
    //put the contents into the right place... 
    for(i = 0; i < (fsize); i++) { 
        share_struct.message[i] = getc(fp); 
    }    
    fclose(fp); 
    //let's rock'n'roll!...make the shares and store it! 
    make_shares(&share_struct); 

    for(i = 0,j=0; i < (esize/sizeof(u_int32));  
        j++,i+=(sp_struct.pkt_len/sizeof(u_int32))) { 
        if((fp=fopen(itoa(j), "wb+"))==NULL) { 
           perror("ida_start");  
           return 1;  
        } 
        //make an SHA1 of the current chunk 
        md = vlv_digest((char *)&(share_struct.shares[i]),  
                        sp_struct.pkt_len/sizeof(u_int32)); 
         
        //write all and finish! 
        fwrite(VERSION, 4, 1, fp); //4bytes 
        fwrite(md, 32, 1, fp); //32bytes 
        fputc(j, fp); //1byte 
        fputc(sp_struct.mpkt_count, fp); //1byte 
        fputc(sp_struct.rpkt_count, fp); //1byte 
        fputc(field_size, fp); //1byte 
        fwrite(&fsize, sizeof(unsigned long), 1, fp); //4byte*/ 

        for(k=0;k<(sp_struct.pkt_len/sizeof(u_int32));k++) { 
            fputc((share_struct.shares[i+k]),fp); 
        } 
        fclose(fp); 
    } 
    //some clean'ups 
    free(share_struct.message); 
    free(share_struct.shares); 
    return fsize; 
} 

Allo stesso modo dovremo ripristinare l'informazione originale dati in input un 
numero sufficiente di chunks per la ricostruzione. Dovremo quindi creare una 
funzione che, raggiunto un numero minimo di pezzi diversi sia in grado di 
inizializzare e procedere alla ricostruzione del file originale. 

/* 
   try to rebuild a file, using the parameters and hash passed as argument in  
   HROOT,HUROOT. 
*/ 
int ida_rebuild(char *filename, hashstruct *HROOT, hashstruct *HUROOT) { 

   /* local variables skipped here... 
      see, instead, the source code */ 
       
   gettimeofday(&tp, &tzp); 
   srand48(tp.tv_usec); 
   if(HROOT == NULL) return -5; 
   t2=HROOT; 
   chunk=t2->hash; 
   if(chunk == NULL) { 
      perror("ida_rebuild2");  
      return 1; 
   } 
   if((fp=fopen(chunk, "rb"))==NULL) { 
      perror("ida_rebuild2"); 
      return 1; 
   } 
   //skip the sha1 and get the parameters... 
   fseek(fp, 36, SEEK_SET); 
   rand_share = fgetc(fp); 
   num_msg_pkts = fgetc(fp); 
   num_extra_pkts = fgetc(fp); 
   field_size = fgetc(fp); 
   fread(&fsize, sizeof(unsigned long), 1, fp); 
    
   num_segments = get_segments(field_size,num_msg_pkts, 
                               fsize); 
   //initialize the parameters/key required for rebuild 
   retval = init_params(num_msg_pkts,num_extra_pkts, 
                     field_size,num_segments, &sp_struct); 
   share_struct.sp = &sp_struct; 
   msize=num_msg_pkts*field_size*num_segments 
         *sizeof(u_int32); 
   esize=num_extra_pkts*field_size*num_segments 
         *sizeof(u_int32); 
   //let's try to allocate enough space, for rebuild 
   share_struct.message = (u_int32 *) malloc(msize); 
   memset(share_struct.message, 0, msize); 
   share_struct.shares = (u_int32 *) malloc(esize); 
   memset(share_struct.shares, 0, esize); 
   memset(&rebuild_struct, 0, sizeof(rebuild_struct)); 
   rebuild_struct.rec_table = (u_int32 *) 
                  calloc(num_extra_pkts, sizeof(u_int32)); 
   rebuild_struct.rec_mark = (u8 *) 
                  calloc(num_extra_pkts, sizeof(u8)); 
   rebuild_struct.pre_block=(u_int32 *)calloc(esize, 1); 
   rebuild_struct.post_block=(u_int32 *)calloc(msize, 1); 
   rebuild_struct.sp = &sp_struct; 
   /*scroll up the chunks list for rebuild...stop when we 
   get enough chunks...*/ 
   for(t2=HROOT;t2!=NULL && !rebuild_struct.done; 
       t2=t2->next) { 
      chunk=t2->hash; 
      fseek(fp, 36, SEEK_SET); rand_share = fgetc(fp); 
      share_off = rand_share * sp_struct.pkt_len; 
      fseek(fp, 44, SEEK_SET); 
      for(k=0;k<(sp_struct.pkt_len/sizeof(u_int32));k++) { 
         share_struct.shares[(share_off/sizeof(u_int32)) 
                             +k]=fgetc(fp); 
      } 
      fclose(fp); 
      /*put chunk into share_struct. share_in stop itself 
      when enough chunks are reached*/ 
      share_in(rand_share, (u_int32 *)  
               &(share_struct.shares[share_off / 4]), 
               sp_struct.pkt_len, &rebuild_struct); 
   } 
   /*if we reach this point, we've reassembled  
   successfully the original file. so, we can write it*/ 
   fp = fopen(filename, "wb+"); 
   for(i = 0; i < fsize; i++) { 
      putc(rebuild_struct.post_block[i], fp); 
   } 
   fclose(fp); 
   return 0; 
} 

A questo punto le due funzioni base sono disponibili. In realta', mancano molte 
funzioni di appoggio che troverete nelle librerie sorgenti -- il link e'  
disponibile alla fine del documento tra le referenze -- Ho deciso di alleggerire 
un po' il codice per renderlo piu' scorrevole e di facile comprensione. In 
fondo, le librerie mancanti sono solo routines preposte a particolari scopi. E' 
importante, invece, sottolineare che a questo punto abbiamo due funzioni: una  
per disperdere un file, ed una per ricostruire un file dati un numero  
sufficiente di chunks per la ricostruzione. Il gioco, a questo punto, e' fatto!  
Bastera' dividere in maniera random ad n-partecipanti i chunks generati e  
richiederli quando necessario per la ricostruzione. In fondo, come ci assicura 
Rabin con la sua dimostrazione formale, i chunks non rilasciano informazioni 
sensibili circa la natura o il contenuto del file originale. Sara' quindi 
possibile rilasciarli ad n-partecipanti sconosciuti senza per questo 
compromettere la sicurezza e l'anonimato del documento da noi distribuito. 
Inoltre, l'invio dei contenuti potra' essere alleggerito da eventuali layer 
crittografici, indispensabili altrimenti. Ogni chunk, insomma, e'  
un'informazione pubblica che puo' essere distribuita senza ulteriori problemi 
ai partecipanti. 

 
5. ANNET - ANonymous NETwork System (IDA Based) 

Proviamo a pensare ad una implementazione pratica di un sistema distribuito di 
condivisione file, basato su IDA, che permette il recupero e la pubblicazione 
di documenti attraverso l'algoritmo IDA in tempo reale, in un network a 
grandezza variabile e dimensionalmente scalabile. Per raggiungere il nostro 
scopo, sara' necessario focalizzare la nostra attenzione su alcuni obiettivi: 

- Affidabilita': i dati pubblicati, devono poter rimanere attivi, anche sotto  
  particolari forme di attacchi e/o di errori di sistema, assicurando 
  all'utente che li ha pubblicati il corretto recupero dei dati immessi. 

- Efficienza: e' necessario sviluppare un protocollo, ed un sistema di  
  funzionamento, volto ad offrire efficienza a tutti i partecipanti. Sono da 
  evitare onerosi sistemi di scambio messaggi basati su connessioni TCP/IP, e 
  quant'altro pregiudichi l'efficienza, la velocita' e la portabilita' del 
  lavoro. 

- Sicurezza: nessun partecipante, che mette a disposizione una porzione delle 
  sue risorse, deve essere in grado di leggere documenti a lui non indirizzati. 
  Non deve, inoltre, essere in grado di capire quali porzioni di quali file 
  mantiente/conserva sul proprio spazio condiviso. In questa maniera, si ottiene 
  un duplice risultato: da un lato il cliente che mette a disposizione delle 
  risorse non sara' in grado di operare una censura sui chunks che conserva, 
  rendendo quindi instabile il sistema; dall'altro lato, sara' molto piu' arduo 
  per un potenziale attaccante capire la qualita' e la quantita' delle 
  informazioni in suo possesso, nell'eventualita' che una macchina venisse 
  violata. 

- Persistenza: colui che pubblica il documento, determina la vita dello stesso. 
  Su questa base e sulle informazioni in proprio possesso, i server si adoperano 
  per mantenere vivo il piu' possibile il documento. Soltanto quando l'utente 
  che ha pubblicato il documento decide di eliminarlo, il documento dovra' 
  essere eliminato, repentinamente, dal sistema. 

L'idea e' quella di creare un'architettura che utilizzi un particolare 
algoritmo/schema di cifratura e manipolazione dei files per l'invio dei dati ai 
clienti connessi al network; il file viene diviso in piccoli pezzettini  
(chunks), viene aggiunto ad essi un sistema di controllo di errore ed un sistema 
di ricostruzione, creando una sorta di file system sicuro ed anonimo in rete. Se 
alcuni singoli PC all'interno del network vengono spenti, subiscono un attacco 
esterno o hanno un fault hardware, gli agenti rimanenti possono organizzarsi per 
ricostruire il documento, utilizzando le informazioni aggiuntive conservate in  
ogni chunk. Il sistema di correzione degli errori sopracitato e' la chiave di  
volta di quanto qui illustrato; il file viene diviso in m pezzettini, ma  
soltanto un numero n minimo di essi, sara' davvero necessario per la  
ricostruzione dell'informazione originale. Usando un livello di ridondanza molto 
piccolo e leggero per la correzione degli errori e mantenendo solo informazioni 
parziali su uno specifico luogo di archiviazione, si hanno gli estremi per 
concretizzare, almeno in linea teorica, quello che abiamo illustrato sin qui. 

ANNET e' basato su un network di macchine in cui ogni server conserva pezzettini 
di informazione (chunks). Per la dinamicita' del servizio proposto, i dati  
viaggiano e si evolvono frequentemente: puo' capitare, ad esempio, che il  
netserver decida di ridividere (resplitting) il documento xxx poiche' sono 
presenti pochi chunks nel sistema e pertanto la vita stessa del documento e' 
messa in discussione. 

In questo caso il netserver si preoccupa del corretto recupero del documento, 
rigenerandolo e ridistribuendolo alle nuove macchine presenti in rete,  
assicurando quindi una presenza costante dello stesso; ricordiamo che la vita  
del documento puo' essere decisa esclusivamente dall'autore dello stesso. In  
nessun altro caso, si deve presentare la possibilita' di distruzione del file; 
farlo metterebbe in crisi ed in discussione l'esistenza stessa del network. 

Prima di tutto, definiamo come agenti utili chi pubblica, un lettore ed un  
dataserver; definiamo, inoltre, come agenti indispensabili i netservers. La  
comunicazione tra questi ultimi puo' essere implementata attraverso un layer di 
comunicazione che preveda lo scambio di informazioni utili quali ad esempio il  
proprio file system corrente, i propri utenti ed il proprio spazio globale  
attualmente utilizzabile, creando, in pratica, un network di netservers. Gli  
agenti si appoggiano al nostro livello di comunicazione, che a sua volta si  
appoggia al layer UDP/IP per la consegna a livello fisico dei pacchetti. Gli  
agenti comunicano tra loro, attravero indirizzi IP. In linea di principio,  
tuttavia, e' possibile frappore un ulteriore livello che renda anonimo  
l'indirizzamento del messaggio, usando un sistema di mixnets e/o remailing e  
delegando la consegna fisica del pacchetto a particolari servers preposti per  
la consegna anonima. Gli autori sono agenti che producono documenti e che voglio 
conservare in maniera sicura nel nostro network. I netservers sono agenti che si 
preoccupano della corretta divisione dei documenti in chunks e della puntuale  
consegna ai relativi dataservers. Questi ultimi sono agenti preposti al  
ricevimento ed alla conservazione di chunks. 

 
6. Note legali ed anonimato 

Quello dell'anonimato e' un concetto molto vasto che spesso viene utilizzato 
senza definirne esattamente i contorni. In questo lavoro come identita' si 
intende quella dichiarata dall'utente (username, password) e non quella 
locazionale (da dove viene effettuata la richiesta, indirizzo fisico). Ci 
focalizzeremo nel garantire un livello di anonimato basato su username/password, 
lasciando l'aspetto locazionale a lavori atti a garantirlo, mixnets e/o reply 
forwarders. 

ANNET, nella mia idea attuale, non garantisce l'anonimato del richiedente e/o 
del pubblicante. Queste richieste, infatti, possono comunque essere tracciate a 
livello rete, ma garantisce l'anonimato del contenuto: ogni partecipante al 
network, non puo' conoscere il contenuto ne' tenere traccia dei chunks 
attualmente presenti nel suo sistema.  

Questo livello di anonimato assicura che soltanto gli utenti, eventualmente  
autorizzati, possano riprendere il documento e conoscerne il contenuto.  
Dall'altro lato, viene garantito che nessun partecipante possa filtrare i propri 
contenuti rispetto a propri canoni (cancellando chunks non voluti, ad esempio),  
rendendo cosi' instabile il network. 
  
Rimane ancora aperto, anche se in forma molto minore, il problema della  
localizzazione (sebbene sia possibile localizzare le richieste fisicamente, non 
e' ora possibile imputare una particolare richiesta ad un particolare utente, 
dato che il traffico e' sostenuto da un layer crittografico). Per quanto 
riguarda gli aspetti legali, tanto menzionati in quest'ultimo periodo, bisogna 
puntualizzare alcune cose. Il protocollo qui descritto, applica trasformazioni 
ai contenuti dei documenti, dividendoli e modificandoli secondo precisi schemi 
matematici. Il risultato ottenuto (i chunks), e' molto distante dall'essere una 
parte integra del documento originale. 

- I Netservers non contengono informazioni ne' contenuti sensibili a leggi sul 
  diritto d'autore (copyright); essi mantengono solo informazioni continuamente 
  in evoluzione, sullo stato del file system e della rete (senza mai indicare 
  ne' conservare chi e come contiene le informazioni che si stanno cercando). 

- I Dataservers non contengono informazioni, ma solo trasformazioni  
  inutilizzabili senza la corretta chiave e senza l'ausilio di un numero minimo 
  di chunks. Soltanto l'autore (colui che pubblica) del documento puo' essere 
  imputato riguardo la leggittimita' del contenuto dei documenti pubblicati. 

 
7. Conclusioni 

Cosa ci faccio con tutto questo? In realta' l'idea fondamentale alla base di 
quest'articolo e' stata quella di spronare la fantasia del lettore e nel 
contempo renderlo conscio di alcune tecnologie che, a mio modo di vedere, 
prenderanno piede nei prossimi anni -- per un motivo o per un altro --. La 
risposta alla domanda di prima e' abbastanza semplice! Potete farci tutto e 
niente. E' vero che l'implementazione messa a disposizione con l'articolo tratta 
solo l'algoritmo base e non tutto il protocollo descritto... ma quello potete 
implementarlo come credete! :-) 

Avendo a disposizione l'idea, i concetti ed una libreria funzionante che  
implementi un sistema di divisione e ricostruzione sicura di un file, e'  
possibile implemetarvi sopra tutto quello che si desidera! La librearia e' stata 
scritta general-pourpouses, in maniera da venire incontro a chiunque desideri 
farne un'implementazione piu' particolareggiata. Il carattere generale della 
libreria, tuttavia, mette in risalto alcune debolezze -- dal punto di vista di 
efficienza computazionale -- che, comunque, possono essere risolte. Magari piu' 
in la', con un po' di tempo, lo faro' io stesso! :-) 

 
8. Ringraziamenti 

- s0ftpj interamente, per esserci. 
- freaknet per l'incredibile affetto dimostrato negli anni. 
- vrl labs per essere stati sempre vicini anche nelle idee piu' strane! 
- misc. tutti gli altri che dimentico sempre! 

 
A. Referenze e links utili 

- M. Rabin, Efficient dispersal of information for security, load balancing, and 
  fault tolerance, J. ACM 38, 335-348 (1989). 

- http://www.freenet.org 

- http://www.freehaven.net 

- http://www.s0ftpj.org 

 
================================================================================ 
------------------------------------[ EOF ]------------------------------------- 
================================================================================
BFi numero 13 file 14

Share this article

Let's discover also

BFi numero 04 anno 1

BFi numero 11 anno 6 file 02 di 15

BFi numero 10 anno 4 file 01 di 18

BFi numero 13 file 20

BFi numero 06 anno 2

BFi numero 14 file 06

BFi numero 11 anno 6 file 01 di 15

BFi numero 14 file 03 Spanish

BFi numero 08 anno 3 file 28 di 28

BFi numero 08 anno 3 file 07 di 28

Recent Articles

Douglassarachne acanthopoda: The Mysterious Spiny Arachnid of the Past

Optimizing for FastRAM & 68060 CPU

68030 ST RAM and things around it

Piazza dell'Anfiteatro a Lucca

Measure Issue 01

Netizens-Digest Volume 1 Number 542

Netizens-Digest Volume 1 Number 541

Netizens-Digest Volume 1 Number 540

Netizens-Digest Volume 1 Number 538

Netizens-Digest Volume 1 Number 537

Recent Comments