erlug
[Top] [All Lists]

Re: [Erlug] Log aggregation, sempre lui

To: ERlug - Lista Pubblica <erlug@xxxxxxxxxxxxxx>
Subject: Re: [Erlug] Log aggregation, sempre lui
From: Giulio Iotti <dullgiulio@xxxxxxxxx>
Date: Mon, 7 Jan 2013 08:41:27 +0100
2013/1/6 m <m@xxxxxxxxxxxxxxxx>
>
> * Sandro Zaccarini (guly@xxxxxxxxxxxx) [130106 11:43]:
> > >
> > > Relativo se sei una banca/una telco/un signore del narcotraffico: ho
> > > fatto un'indagine recentemente e per "un bel po' di Gb al giorno"
> > > secondo me e` inaffrontabile.
> >
> > per i 500mb di licenza base IIRC sono $4k annui, che "per me" attualmente
> > sarebbero sufficienti, ma sono molto lontani dalla quanto dice giulio.
> >
>
> so di un posto dove lo hanno preso, hanno molti dati, gli hanno fatto
> uno sconto serio, ma siamo ancora nell'ordine delle decine di migliaia
> di euro all'anno

$4k annui sarebbero affrontabili, ma e' una spesa da giustificare di
fronte a varie persone, piu' o meno tecniche e io non sono sicuro di
riuscirci (per il semplice fatto che non sono convinto nemmeno io).

Fermo restando che come e' gia' stato detto, 500mb sono free, ma noi
ne abbiamo ben di piu'.

>
>
> > > Giusto per seminare zizzania:
> > > https://github.com/johnl/riak-syslog#readme
> >
> > non conosco, ho visto setup di situazioni simili a splunk implementare
> > xapian e reagire abbastanza bene su ricerche log grezzi ma sono sempre
> > almeno un ordine di grandezza sotto splunk.
> >

Pazzie. L'idea e' buona ma "major infrastructural changes" (installare
Riak) richiederebbero anni (don't ask...).


> secondo me si stanno mischiando casi di uso molto diversi: li enuncio in
> ordine sparso per come li ho capiti:
> - i log sono log applicativi, gia` 'pronti' per essere analizzati,
>   quindi coerenti, ecc. o vanno pre-processati ? perche` in tal caso
>   nell'equazione forse serve un oggetto come logstash

I dati in generale vanno solo analizzati. Al momento vengono gia'
centralizzati via rsyslog e l'infrastruttura non e' gestita da me ma
sembra funzionare bene.

> - i log sono gia` consolidati o consolidabili in un posto unico, o c'e`
>   anche un problema di trasporto ? perche` anche qua ci sono vari
>   strumenti, tra cui logstash di cui sopra

Come sopra, nessuna azione in questo senso.

> - c'e` un vincolo legato alle performance, per cui si sa o si suppone di
>   avere un certo traffico (alto) ? oppure parliamo dell'equivalente di
>   un log di un apache server un po' carico ?

Mah, non saprei, per la mia esperienza mi sembra medio. Circa 100k
accessi al giorno (ma parlo di pageviews, i log sono ovviamente tra i
5 e i 10 per pageview.

Inoltre sono quattro progetti, tutti con circa lo stesso carico,
almeno facendo la media.

Inoltre io avrei pianificato di aumentare la quantita' di log con
alcuni messaggi custom per tracciare le performance. Penso ad un 20%
in piu'.

> - si possono perdere delle voci dei log, o e` necessario garantire
>   l'affidabilita` di tutti i dati in transito ? perche' in quest'ultimo
>   caso potresti introdurre un ulteriore elemento, che ti realizza un
>   canale con memoria, con un sistema di code a la` RabbitMQ per capirci

Evidentemente mi ero spiegato male. I log sono gia' "fermi" su uno
storage sicuro. Non penso che ce ne siano di persi (e se ce ne sono,
non ha mai fatto alcuna differenza).

Il punto e' che Urchin fin'adesso sembra avercela fatta (seppur nelle
sue tante limitazioni).


> cioe`, il problema, per come l'ho capito io, non e` sufficientemente
> chiaro, e quindi non saprei cosa consigliare

In realta' punto molto piu' in basso, solo alla parte di analisi,
possibilmente con i "grafici carini" per la sezione marketing.

Se non ho capito male anche splunk avrebbe un plugin per questo?
Dovrei provarlo, lo dovrei mostrare di sicuro.

Comunque grazie per le dritte, non conoscevo logstash ma mi verra'
utile per altri usi.

--
Giulio Iotti

<Prev in Thread] Current Thread [Next in Thread>