#Socket Programming HOWTO Contents About this document... About this
   document...

                          Socket Programming HOWTO
     _________________________________________________________________

                          Socket Programming HOWTO

                              Gordon McMillan

                             gmcm@hypernet.com

  Sommario:

   I socket hanno vasta diffusione, ma restano una delle tecnologie meno
   comprese. Questo documento è solo una panoramica sui socket. Non è un
   vero e proprio tutorial - dovrete ancora lavorare parecchio per far
   funzionare le cose. Non si occupa delle sottigliezze (e ve ne sono
   parecchie), ma spero che vi dia conoscenze sufficienti per iniziare a
   usarli decentemente. Traduzione italiana a cura di Giorgio Zoppi
   (deneb at penguin.it) e Riccardo Fabris (python.it at tiscalinet.it).

   Questo documento è disponibile, in lingua originale, presso la pagina
   dei Python HOWTO http://www.python.org/doc/howto, la traduzione presso
   la pagina http://www.zonapython.it/doc/howto/.

Indice

     * 1 I socket
          + 1.1 Storia
     * 2 Creare un socket
          + 2.1 IPC
     * 3 Usare un socket
          + 3.1 Dati binari
     * 4 Sconnettersi
          + 4.1 Quando i socket muoiono
     * 5 Socket non bloccanti
          + 5.1 Prestazioni
     * About this document ...

                                  1 I socket

   I socket hanno vasta diffusione, ma restano una delle tecnologie meno
   comprese. Questo documento è solo una panoramica sui socket. Non è un
   vero e proprio tutorial - dovrete ancora lavorare parecchio per far
   funzionare le cose. Non si occupa delle sottigliezze (e ve ne sono
   parecchie), ma spero che vi dia conoscenze sufficienti per iniziare a
   usarli decentemente.

   Ho intenzione di trattare solo i socket INET, che comunque sono
   stimati essere almeno il 99% dei socket in uso. E parlerò dei socket
   STREAM: a meno che voi non sappiate veramente quello che fate (in tal
   caso questo HOWTO non è per voi!), otterrete comportamento e
   prestazioni migliori da un socket STREAM che da qualsiasi altro.
   Proverò sia a risolvere il mistero di cosa sia un socket che a dare
   alcuni suggerimenti su come lavorare con i socket bloccanti e non
   bloccanti. Ma inizierò a parlare dei socket bloccanti. È necessario
   che voi sappiate come funzionano prima di trattare quelli non
   bloccanti.

   Parte del problema nel comprendere la questione è che il termine
   ``socket'' può significare una quantità di cose sottilmente
   differenti, a seconda del contesto. Quindi innanzitutto facciamo una
   distinzione tra un socket ``client'' - l'estremo di una conversazione,
   e un socket ``server'', che è più simile ad un operatore di
   centralino. L'applicazione client (il vostro browser, p.e.) usa
   esclusivamente socket ``client''; il server web con il quale sta
   conversando usa sia socket ``server'' sia ``client''.

1.1 Storia

   Tra le varie forme di IPC (Inter Process Communication - comunicazione
   tra processi), i socket sono di gran lunga la più popolare. Data una
   qualsiasi piattaforma, è probabile che ci siano altre forme di IPC più
   veloci, ma per la comunicazione tra piattaforme diverse i socket sono
   quasi una scelta obbligata.

   Furono inventati a Berkeley come parte dello Unix BSD. Si diffusero
   assai rapidamente con Internet. Per buone ragioni la combinazione dei
   socket con INET rende la comunicazione con macchine di qualunque tipo
   sparse qua e là per il mondo incredibilmente facile (almeno se
   comparata con gli altri sistemi).

                              2 Creare un socket

   Parlando per sommi capi, quando voi avete cliccato sul link che vi ha
   portato a questa pagina, il vostro browser ha fatto qualcosa del tipo:

    # crea un socket INET di tipo STREAM
    s = socket.socket(
        socket.AF_INET, socket.SOCK_STREAM)
    # ora si connette al server web sulla porta 80
    #  - la normale porta http
    s.connect(("www.mcmillan-inc.com", 80))

   Quando la connessione (connect) è stabilita, il socket s può essere
   usato per inoltrare una richiesta del testo di questa pagina. Lo
   stesso socket leggerà la risposta, e sarà poi distrutto. È giusto:
   distrutto. I socket client sono normalmente usati per un solo scambio
   (o un piccolo insieme di scambi sequenziali).

   Quello che succede nel server web è un po' più complesso. Prima, il
   server web crea un ``socket server''.

    # crea un socket INET di tipo STREAM
    serversocket = socket.socket(
        socket.AF_INET, socket.SOCK_STREAM)
    # associa il socket a un host pubblico
    # e a una delle porte ben-note
    serversocket.bind((socket.gethostname(), 80))
    # diventa un socket server
    serversocket.listen(5)

   Un paio di cose da notare: abbiamo usato socket.gethostname() cosicché
   il socket sia visibile al mondo esterno. Se avessimo usato
   serversocket.bind(('', 80)) o serversocket.bind(('localhost', 80)) o
   serversocket.bind(('127.0.0.1', 80)) avremmo avuto ancora un socket
   ``server'', ma visibile solo all'interno della stessa macchina.

   Seconda cosa da notare: le porte con un numero basso sono di solito
   riservate per servizi ``ben noti'' (HTTP, SNMP, ecc). Se state facendo
   esperimenti, usate un numero piuttosto alto (almeno 4 cifre).

   Infine, il parametro passato a listen dice alla libreria socket che
   noi vogliamo che si mettano in coda 5 richieste di connessione (il
   massimo, normalmente) prima di rifiutare connessioni esterne. Se il
   resto del codice è scritto in maniera adeguata, dovrebbero essere
   sufficienti.

   Bene, ora abbiamo un socket ``server'', in ascolto sulla porta 80. Ora
   introduciamo il ciclo principale del server web:

    while 1:
        # accetta le connessioni dall'esterno
        (SocketClient, address) = serversocket.accept()
        # ora fa qualcosa con il socket client
        # in questo caso, fingiamo che sia un server che usa i thread
        ct = client_thread(SocketClient)
        ct.run()

   Ci sono in realtà 3 modi comuni per far funzionare questo ciclo:
   smistare il SocketClient a un thread che lo gestisca, creare un nuovo
   processo per gestire il SocketClient, o ristrutturare questa
   applicazione per usare i socket non bloccanti, e lavorare in
   ``multiplexing'' tra il nostro socket ``server'' e un qualunque
   SocketClient attivo usando select. Ne parleremo più avanti. La cosa
   importante da capire ora è che questo è tutto quello che un socket
   ``server'' fa. Non invia nessun dato. Non riceve nessun dato. Produce
   solo socket ``client''. Ciascun SocketClient è creato in risposta a
   qualche altro socket ``client'' che fa un connect() a host e porta ai
   quali siamo associati. Non appena abbiamo creato quel SocketClient,
   torniamo a restare in attesa di ulteriori connessioni. I due
   ``client'' sono liberi di continuare a conversare; stanno usando delle
   porte allocate dinamicamente, che saranno riciclate quando la
   conversazione sarà finita.

2.1 IPC

   Se avete bisogno di IPC veloce tra due processi su un'unica macchina,
   dovreste esaminare a fondo qualsiasi forma di memoria condivisa che la
   piattaforma offre. Un semplice protocollo basato su memoria condivisa
   e lock o semafori, è di gran lunga la tecnica più veloce.

   Se decidete di usare i socket, associate il socket ``server'' a
   'localhost'. Sulla maggior parte delle piattaforme, questa scorciatoia
   permetterà di eludere un paio di strati del codice di rete e si
   acquisterà in velocità.

                               3 Usare un socket

   La prima cosa da notare è che il socket ``client'' del browser e il
   socket ``client'' del server web sono la stessa bestia. Cioè questa è
   una conversazione da pari a pari (``peer to peer''). O, per metterla
   in altro modo, come progettisti, dovete decidere quali sono le regole
   di etichetta per una conversazione. Normalmente, il socket che si
   connette inizia la conversazione, inviando una richiesta o forse un
   segnale di connessione. Ma questa è una decisione a livello
   progettuale, non è una regola dei socket.

   Ora ci sono due insiemi distinti di verbi da usare per la
   comunicazione. Potete usare send e recv [sta per `receive' NdT], o
   potete trasformare il vostro socket client in una cosa simile a un
   file e usare read e write. L'ultimo è il modo in cui Java presenta i
   propri socket. Non ho intenzione di parlarne qui, eccetto che per
   avvisarvi che avete bisogno di usare flush sui socket. Sono ``file''
   bufferizzati, e un errore comune è scrivere qualcosa, poi leggere per
   avere una risposta. Senza un flush potreste aspettare una risposta
   all'infinito, perché la richiesta potrebbe essere ancora nel vostro
   buffer di uscita.

   Ora veniamo allo scoglio maggiore che si deve affrontare coi socket:
   send e recv operano sui buffer di rete. Non necessariamente gestiscono
   tutti i byte che passate loro (o che aspettate da loro), in quanto il
   loro scopo principale è gestire i buffer di rete. In generale
   ritornano quando i buffer di rete ad essi associati sono stati
   riempiti (send) o svuotati (recv). Poi vi dicono quanti byte hanno
   gestito. È vostra responsabilità chiamarli di nuovo finché il vostro
   messaggio non sia stato completamente trattato.

   Quando recv restituisce 0 byte, significa che l'altro lato ha chiuso
   la connessione (o ne sta effettuando la chiusura). Non riceverete più
   dati su questa connessione. Mai. Potreste comunque essere in grado di
   inviare dati con successo; parlerò di questo più avanti.

   Un protocollo come HTTP usa un socket per un unico trasferimento. Il
   client manda una richiesta e poi legge una risposta. È tutto. Il
   socket viene abbandonato. Ciò significa che un client può accorgersi
   della fine della risposta ricevendo 0 byte.

   Ma se pianificate di riusare il vostro socket per ulteriori
   trasferimenti, dovete rendervi conto che non esiste una cosa come un
   ``EOT'' (End of Transfer - Fine del Trasferimento) su un socket.
   Ripeto: se send o recv di un socket ritorna dopo aver gestito 0 byte,
   la connessione è stata interrotta. Se la connessione non è stata
   interrotta, aspetterete un recv all'infinito, in quanto il socket non
   vi dirà che non c'è più niente da leggere (per ora). Ora, se ci
   pensate su un po', arriverete a comprendere una fondamentale verità
   sui socket: i messaggi devono essere di una ``determinata'' lunghezza
   (sigh!), o essere delimitati (tzè...!?), o indicare quanto sono lunghi
   (molto meglio!), o finire facendo cadere la connessione. La scelta è
   interamente vostra, (ma alcune strade sono più giuste di altre).

   Assumendo che voi non vogliate terminare la connessione, la soluzione
   più semplice è un messaggio di lunghezza fissa:

    class mysocket:
        '''classe solamente dimostrativa
          - codificata per chiarezza, non per efficenza'''
        def __init__(self, sock=None):
            if sock is None:
                self.sock = socket.socket(
                    socket.AF_INET, socket.SOCK_STREAM)
            else:
                self.sock = sock
        def connect(host, port):
            self.sock.connect((host, port))
        def mysend(msg):
            totalsent = 0
            while totalsent < MSGLEN:
                sent = self.sock.send(msg[totalsent:])
                if sent == 0:
                    raise RuntimeError, \\
                        "connessione socket interrotta"
                totalsent = totalsent + sent
        def myreceive():
            msg = ''
            while len(msg) < MSGLEN:
                chunk = self.sock.recv(MSGLEN-len(msg))
                if chunk == '':
                    raise RuntimeError, \\
                        "connessione socket interrotta"
                msg = msg + chunk
            return msg

   Il codice di invio di questo esempio è utilizzabile per quasi ogni
   schema di scambio di messaggi - in Python si inviano stringhe, e si
   può usare len() per determinare la loro lunghezza (anche se contengono
   caratteri \0 interni). Di solito è il codice per la ricezione a essere
   più complesso (e in C non è molto peggio, eccetto che non si può usare
   strlen se il messaggio contiene al suo interno degli \0).

   Il miglioramento più semplice da apportare è rendere il primo
   carattere del messaggio un indicatore del tipo di messaggio, il tipo
   ne determina la lunghezza. Ora avete due recv, il primo per ottenere
   (almeno) quel primo carattere, così da poter sapere rapidamente la
   lunghezza, e il secondo in un ciclo per ottenere il resto. Se
   scegliete la strada dei messaggi delimitati, vi troverete a ricevere
   spezzoni di lunghezza arbitraria (4096 o 8192 trovano di frequente
   buona corrispondenza nelle dimensioni dei buffer di rete), e
   analizzerete ciò che avete ricevuto alla ricerca di un delimitatore.

   Una complicazione cui fare attenzione: se il vostro protocollo di
   conversazione permette che messaggi multipli vengano mandati uno di
   seguito all'altro (senza un qualche tipo di risposta nel mezzo), e
   ricevete spezzoni di lunghezza arbitraria, potreste finire col leggere
   l'inizio di un messaggio successivo. Dovete metterlo da parte e
   tenerlo in sospeso fino a che non sia necessario.

   Preporre al messaggio la sua lunghezza (per dire, 5 caratteri
   numerici) diventa piú complesso, perché (credeteci o no), potreste non
   ottenere tutti i 5 caratteri con un solo recv. Nei vostri esperimenti
   potete fare a meno di pensarci, ma in caso di elevati carichi di rete
   il vostro codice finirebbe ben presto per collassare, a meno che non
   usiate due cicli recv - il primo per determinare la lunghezza, il
   secondo per ottenere la sezione dati del messaggio. Disgustoso. Questo
   vale anche per quando scoprirete che send non sempre riesce a
   liberarsi di tutto in un solo passaggio. E malgrado lo abbiate letto,
   alla fine non vi servirà a molto!

   Per risparmiare spazio e per rendervi forti nelle avversità (e
   mantenere la mia posizione privilegiata), tali miglioramenti sono
   lasciati come esercizi per il lettore. Diamoci una mossa per finire.

3.1 Dati binari

   È perfettamente possibile inviare dati binari su un socket. Il
   problema maggiore è che non tutte le macchine usano gli stessi formati
   per i dati binari. Per esempio, un chip Motorola rappresenta un intero
   a 16 bit di valore pari a 1 con due byte in esadecimale 00 01 [il
   cosiddetto `big-endian' NdT]. Intel e DEC, invece, usano invertire
   l'ordine dei byte [il cosiddetto `little-endian' NdT] - cio è lo
   stesso 1 di prima è 01 00. Le librerie socket posseggono chiamate per
   convertire gli interi a 16 e 32 bit: ntohl, htonl, ntohs, htons dove
   ``n'' significa network e ``h'' significa host, ``s'' significa short
   e ``l'' significa long. Dove l'ordine di rete è l'ordine di host
   queste funzioni non fanno niente, ma dove la macchina usa invertire
   l'ordine dei byte, queste funzioni scambiano tra di loro i byte in
   maniera appropriata.

   In questi tempi di macchine a 32 bit, la rappresentazione ascii dei
   dati binari occupa di frequente meno spazio di quella binaria. Questo
   perché un numero sorprendente di volte tanti long hanno un valore 0,
   oppure 1. ``0'' come stringa occupa due byte, mentre come dato binario
   ne occupa quattro. Certamente è una cosa che non va molto d'accordo
   coi messaggi di lunghezza fissata. Decisioni, decisioni.

                                4 Sconnettersi

   A rigor di termini, si suppone usiate shutdown su un socket prima di
   chiuderlo con close. Lo shutdown è un avvertimento al socket all'altro
   capo. A seconda dall'argomento che gli passate, può significare ``non
   intendo più inviare, ma rimango ancora in ascolto'', o ``non sto
   ascoltando, che sollievo!''. La maggior parte delle librerie socket,
   tuttavia, si sono talmente adattate all'abitudine dei programmatori di
   trascurare questa fase del cerimoniale che di norma un close è la
   stessa cosa di uno shutdown(); close(). Quindi nella maggior parte
   delle situazioni, uno shutdown esplicito non è necessario.

   Un modo per usare efficacemente shutdown è in uno scambio stile HTTP.
   Il client manda una richiesta e poi fa uno shutdown(1). Questo dice al
   server ``Questo client ha finito l'invio, ma può ancora ricevere''. Il
   server può rilevare ``EOF'' da un ``receive'' di 0 byte. Può assumere
   di aver ricevuto la richiesta per intero. Il server invia una
   risposta. Se il send è completato con successo allora di certo il
   client stava ancora ricevendo.

   Python porta lo shutdown automatico un passo più in là: quando un
   socket finisce in garbage collection, esso farà automaticamente un
   close se necessario. Ma farci affidamento è una pessima abitudine. Se
   il vostro socket semplicemente sparisce senza fare un close, il socket
   all'altro capo potrebbe rimanere in sospeso a tempo indefinito,
   ritenendo che voi siate semplicemente lenti. Quindi per favore fate un
   bel close sui vostri socket quando avete finito.

4.1 Quando i socket muoiono

   Probabilmente la cosa peggiore coi socket bloccanti è quando l'altro
   capo va giù di brutto (senza un close). Dopo di ciò è probabile che il
   vostro socket rimanga bloccato in sospeso. SOCKSTREAM è un protocollo
   affidabile, e aspetterà molto, molto tempo prima di mollare una
   connessione. Se state usando i thread, l'intero thread è di fatto
   morto. Non c'è molto che possiate fare. Fino a quando non farete
   qualcosa di stupido, come mantenere un lock mentre state facendo una
   lettura bloccante, il thread non consumerà molte risorse in verità.
   Non provate a uccidere il thread - parte della ragione per la quale i
   thread sono più efficenti rispetto ai processi è che evitano
   l'overhead associato con il riciclo automatico delle risorse. In altre
   parole, se provate a uccidere il thread è probabile che il vostro
   intero processo venga fregato.

                            5 Socket non bloccanti

   Se avete capito tutto fino a questo punto, ormai saprete già la
   maggior parte di quello che vi serve sapere sui meccanismi di utilizzo
   dei socket. Userete ancora le stesse chiamate, perlopiù negli stessi
   modi. È solo che, se lo fate bene, la vostra applicazione sarà
   pressoché rivoltata.

   In Python usate socket.setblocking(0) per rendere il socket non
   bloccante. In C è più complesso (per una cosa, avrete bisogno di
   scegliere tra lo stile O_NONBLOCK e il quasi indistinguibile stile
   O_NDELAY, che è completamente differente da TCP_NODELAY), ma l'idea è
   esattamente la stessa. Fatelo dopo aver creato il socket, ma prima di
   usarlo (in realtà se siete pazzi potete scattare avanti e indietro).

   La principale differenza a livello di codice è che send, recv, connect
   e accept possono ritornare senza aver fatto nulla. Avete (certamente)
   un buon numero di scelte possibili. Potete verificare il codice di
   ritorno e i codici di errore e in genere questo vi farà ammattire. Se
   non mi credete, provateci qualche volta. La vostra applicazione
   diventerà enorme, piena di bachi ed esosa in termini di risorse.
   Quindi tralasciamo le soluzioni idiote e facciamo le cose per bene.

   Usiamo select.

   In C, scrivere codice per select è abbastanza complesso. In Python è
   liscio come il burro, ma è abbastanza simile a quanto si fa in C,
   capendo l'uso di select in Python avrete pochi problemi in C.

    pronti_da_leggere, pronti_da_scrivere, in_errore = \\
                   select.select(
                      letture_potenziali,
                      scritture_potenziali,
                      errori_potenziali,
                      timeout)

   Potete passare a select tre liste: la prima contiene tutti i socket
   che vorreste provare a leggere, la seconda tutti i socket che vorreste
   provare a scrivere e l'ultima (normalmente lasciata vuota) quelli che
   vorreste controllare per eventuali errori. Dovreste notare che un
   socket può essere presente in più di una lista. La chiamata select è
   bloccante, ma potete darle un timeout. Questo è generalmente una cosa
   sensata da fare - datele un bel timeout lungo (diciamo un minuto) a
   meno che non abbiate una buona ragione per fare altrimenti.

   La funzione restituirà tre liste, che saranno composte dai socket
   effettivamente leggibili, scrivibili e in errore. Ciascuna di queste
   liste sarà un sottoinsieme (possibilmente vuoto) della corrispondente
   lista che avete passato. E se mettete un socket in più di una lista in
   ingresso, esso sarà presente al più solo in una delle liste in uscita.

   Se un socket è nella lista in uscita dei socket leggibili, potete
   essere sicuri-quanto-più-non-si-potrebbe-in-tale-ambito che un recv
   restituirà qualcosa. Lo stesso per la lista dei socket scrivibili:
   sarete in grado di inviare qualcosa. Forse non tutto quello che
   volete, ma qualcosa è meglio di niente. In realtà qualsiasi socket
   ragionevolmente robusto verrà restituito nella lista dei socket
   scrivibili, esserci significa solo che c'è spazio nel buffer di rete
   in uscita.

   Se avete un socket ``server'' mettetelo nella lista
   letture_potenziali. Se compare nella corrispondente lista in uscita,
   il vostro accept (quasi certamente) funzionerà. Se avete creato un
   nuovo socket per connettervi a qualcun altro, mettetelo nella lista
   scritture_potenziali. Se comparirà nella lista in uscita, avrete una
   garanzia decente dell'avvenuta connessione.

   Un problema antipatico con select: se nelle liste in ingresso c'è un
   socket che è morto di una brutta morte, select fallirà. Avrete quindi
   bisogno di verificare in un ciclo ogni singolo dannato socket presente
   nelle liste con un select([sock],[],[],0) fino a trovare il
   responsabile. Il timeout a 0 significa che non ci metterà molto, ma
   resta un orrore.

   In realtà select può essere utile anche con i socket bloccanti. È un
   modo per determinare se li bloccherete - il socket verrà restituito
   come leggibile se c'è qualcosa nei buffer. Tuttavia non è comunque
   d'aiuto col problema di determinare se l'altro capo ha finito o è solo
   occupato altrove.

   Avviso di portabilità: su Unix select funziona sia coi socket che coi
   file. Non provateci su Windows. Su Windows select funziona solo coi
   socket. Notate anche che in C molte opzioni avanzate dei socket sono
   gestite in modo diverso sotto Windows. Infatti su Windows io di solito
   uso i thread (che funzionano molto, molto bene) per i miei socket. Se
   desiderate prestazioni decenti dovete affrontare il problema: il
   vostro codice per Windows sarà molto diverso da quello per Unix. (Non
   ho la minima idea di come affrontare la questione su Mac).

5.1 Prestazioni

   Non c'è dubbio che il codice socket più prestante utilizza socket non
   bloccanti e select per gestirli in multiplexing. Potete mettere
   insieme qualcosa in grado di saturare una connessione LAN senza troppo
   sforzo per la CPU. Il guaio è che una applicazione scritta in questo
   modo non potrà fare molto altro - ha bisogno di essere pronta in ogni
   momento a smistare in giro byte.

   Posto che la vostra applicazione debba in realtà servire a qualcosa di
   meglio, usare i thread è la soluzione ottimale, (e usando i socket non
   bloccanti sarete più veloci che usando i socket bloccanti).
   Sfortunatamente il supporto ai thread nei vari Unix varia sia
   nell'interfaccia che per qualità. Quindi la soluzione normale in Unix
   è fare il fork di un sottoprocesso per occuparsi di ogni singola
   connessione. Il carico accessorio di elaborazione (``overhead'') è
   però significativo (e non fatelo sotto Windows, dove sarebbe enorme).
   Significa anche che nel caso ogni sottoprocesso non sia completamente
   indipendente avrete bisogno di usare un'altra forma di comunicazione
   tra processi, per dire una pipe, o memoria condivisa e semafori, per
   la comunicazione tra processi genitore e figli.

   Infine ricordate che, anche se i socket bloccanti sono alquanto più
   lenti in confronto ai non bloccanti, in molti casi sono la soluzione
   ``corretta''. Dopo tutto, se la vostra applicazione è pilotata dai
   dati che riceve su un socket, non è molto sensato complicarne la
   logica di programmazione per farla rimanere in attesa su una select
   piuttosto che su una recv.

                            About this document ...

   Socket Programming HOWTO

   This document was generated using the LaTeX2HTML translator.

   LaTeX2HTML is Copyright © 1993, 1994, 1995, 1996, 1997, Nikos Drakos,
   Computer Based Learning Unit, University of Leeds, and Copyright ©
   1997, 1998, Ross Moore, Mathematics Department, Macquarie University,
   Sydney.

   The application of LaTeX2HTML to the Python documentation has been
   heavily tailored by Fred L. Drake, Jr. Original navigation icons were
   contributed by Christopher Petrilli.
     _________________________________________________________________

                          Socket Programming HOWTO
     _________________________________________________________________

   Release 0.00.