Indice del forum Emilia Romagna Linux Users Group
i forum di ERLUG
torna alla home page di ERLUG
 
 Forum SubscriptionsForum Subscriptions   FAQFAQ   CercaCerca   Lista utentiLista utenti   GruppiGruppi   RegistratiRegistrati 
 ProfiloProfilo   Messaggi privatiMessaggi privati   Log inLog in 

data harvesting da pagina web

 
Nuovo argomento   Rispondi    Indice del forum -> ERLUG
Precedente :: Successivo  
Autore Messaggio
Federico Calboli
Ospite





MessaggioInviato: Mar 12 Giu 2018 06:59    Oggetto: data harvesting da pagina web Rispondi citando

Aloha,

io vorrei tirare ERLUG in qualche schema maligno, ma purtroppo no, roba innocua. Uno studente ha un pacco di sequenze di DNA che ha spedito a un losco sito, Barcode Of Life Database, che usa blast per trovare le specie a cui ogni sequenza da un match. Il problema e` che il risultato e` offerto in modo demente, per sui uno ha da fare, a manina, copy/paste dei risultati:

http://www.boldsystems.org/index.php/IDS_IdentificationRequest/view?jobId=fmheindler.identificationRequest_fmheindler_7B25AB67-0872-42F1-83E5-C723DD221CBD.H:bold_jobserver-vm:10780681

Che ci sia una API penso di si, ma di stare a ciappinare per giorni per risolvere un problema di fuffa non si ha tempo (si fa prima a fare copia/incolla a mano!). Voi, intelletti supremi che tutto conoscete, avete idea di come pigliare i risultati in modo svelto e sagace, o si ha da fare a mano?

Ciao

F

--
Federico Calboli
f.calboli@xxxxxx.xyz
Top
Davide Brini
Ospite





MessaggioInviato: Mar 12 Giu 2018 07:11    Oggetto: data harvesting da pagina web Rispondi citando

On Mon, 11 Jun 2018 17:03:05 +0200, Federico Calboli <f.calboli@xxxxxx.xyz>
wrote:

Citazione:
Aloha,

io vorrei tirare ERLUG in qualche schema maligno, ma purtroppo no, roba
innocua. Uno studente ha un pacco di sequenze di DNA che ha spedito a un
losco sito, Barcode Of Life Database, che usa blast per trovare le specie
a cui ogni sequenza da un match. Il problema e` che il risultato e`
offerto in modo demente, per sui uno ha da fare, a manina, copy/paste dei
risultati:

http://www.boldsystems.org/index.php/IDS_IdentificationRequest/view?jobId=fmheindler.identificationRequest_fmheindler_7B25AB67-0872-42F1-83E5-C723DD221CBD.H:bold_jobserver-vm:10780681

Che ci sia una API penso di si, ma di stare a ciappinare per giorni per
risolvere un problema di fuffa non si ha tempo (si fa prima a fare
copia/incolla a mano!). Voi, intelletti supremi che tutto conoscete,
avete idea di come pigliare i risultati in modo svelto e sagace, o si ha
da fare a mano?

Lo vedo solo io il bottone "download", o non ho capito nulla?
Top
Davide Brini
Ospite





MessaggioInviato: Mar 12 Giu 2018 07:33    Oggetto: data harvesting da pagina web Rispondi citando

On Mon, 11 Jun 2018 17:15:15 +0200, Davide Brini <db72@xxxxxx.xyz> wrote:

Citazione:
On Mon, 11 Jun 2018 17:03:05 +0200, Federico Calboli <f.calboli@xxxxxx.xyz>
wrote:

Citazione:
Aloha,

io vorrei tirare ERLUG in qualche schema maligno, ma purtroppo no, roba
innocua. Uno studente ha un pacco di sequenze di DNA che ha spedito a
un losco sito, Barcode Of Life Database, che usa blast per trovare le
specie a cui ogni sequenza da un match. Il problema e` che il
risultato e` offerto in modo demente, per sui uno ha da fare, a manina,
copy/paste dei risultati:

http://www.boldsystems.org/index.php/IDS_IdentificationRequest/view?jobId=fmheindler.identificationRequest_fmheindler_7B25AB67-0872-42F1-83E5-C723DD221CBD.H:bold_jobserver-vm:10780681

Che ci sia una API penso di si, ma di stare a ciappinare per giorni per
risolvere un problema di fuffa non si ha tempo (si fa prima a fare
copia/incolla a mano!). Voi, intelletti supremi che tutto conoscete,
avete idea di come pigliare i risultati in modo svelto e sagace, o si ha
da fare a mano?

Lo vedo solo io il bottone "download", o non ho capito nulla?

Ok, non avevo capito nulla.

Come NON farlo, però se hai fretta dovrebbe darti un inizio:

#!/bin/bash

declare -a urls

results™ # cambia se vuoi più risultati per tabella

oIFS=$IFS
IFS=$'\n'
urls=( $(curl -s \
'http://www.boldsystems.org/index.php/IDS_IdentificationRequest/view?jobId=fmheindler.identificationRequest_fmheindler_7B25AB67-0872-42F1-83E5-C723DD221CBD.H:bold_jobserver-vm:10780681'| \
grep 'IDS_SingleResult' | \
sed 's|.*result="\([^"]*\)".*|http://www.boldsystems.org\1\&format=panel\&display='"$results"'|') )
IFS=$oIFS

count=1
for url in "${urls[@]}"; do

curl -o $(printf "%04d.html" "$count") "$url"
((count++))

done

Con questo hai N pagine 0001.html, 0002.html etc. da cui puoi estrarre i
dati (con un altro po' di sed e di madonne).
Top
Federico Calboli
Ospite





MessaggioInviato: Mer 13 Giu 2018 00:34    Oggetto: data harvesting da pagina web Rispondi citando

<snip>

Citazione:
Con questo hai N pagine 0001.html, 0002.html etc. da cui puoi estrarre i
dati (con un altro po' di sed e di madonne).

Grazie. Passai allo studente, vedremo che combina!

Ciao!

F

--
Federico Calboli
f.calboli@xxxxxx.xyz
Top
Davide Brini
Ospite





MessaggioInviato: Mer 13 Giu 2018 01:33    Oggetto: data harvesting da pagina web Rispondi citando

On Tue, 12 Jun 2018 10:37:24 +0200, Federico Calboli <f.calboli@xxxxxx.xyz>
wrote:

Citazione:
<snip>

Citazione:
Con questo hai N pagine 0001.html, 0002.html etc. da cui puoi estrarre i
dati (con un altro po' di sed e di madonne).

Grazie. Passai allo studente, vedremo che combina!

Con un po' più di calma ho guardato le pagine, e (a parte che sono
frammenti di HTML e non documenti completi) l'HTML che contengono è una
bella ciofeca (per essere buoni). Meglio usare tool come beautifulsoup (se
funziona) per trasformarle in qualcosa di parsabile.

Ciao!
Top
Federico Calboli
Ospite





MessaggioInviato: Mer 13 Giu 2018 03:45    Oggetto: data harvesting da pagina web Rispondi citando

On 12 Jun 2018, at 11:36, Davide Brini <db72@xxxxxx.xyz> wrote:
Citazione:

On Tue, 12 Jun 2018 10:37:24 +0200, Federico Calboli <f.calboli@xxxxxx.xyz>
wrote:

Citazione:
<snip>

Citazione:
Con questo hai N pagine 0001.html, 0002.html etc. da cui puoi estrarre i
dati (con un altro po' di sed e di madonne).

Grazie. Passai allo studente, vedremo che combina!

Con un po' più di calma ho guardato le pagine, e (a parte che sono
frammenti di HTML e non documenti completi) l'HTML che contengono è una
bella ciofeca (per essere buoni). Meglio usare tool come beautifulsoup (se
funziona) per trasformarle in qualcosa di parsabile.

libreoffice apre i vari html in modo accettabile per pigliare i dati, per cui funge!

Grazie ancora,

Ciao

F


--
Federico Calboli
f.calboli@xxxxxx.xyz
Top
Ivan Rossi
Ospite





MessaggioInviato: Mer 13 Giu 2018 08:35    Oggetto: data harvesting da pagina web Rispondi citando

io vedo due strade:

1) installa bioperl o biopython che hanno le funzioni per interfacciarsi a
blast e parsare i risultati.
2) invece di usare un sito di dubbia qualità interfacciati con uno dei tool
di cui sopra al blast di NCBI o a quello dell EBI, che fanno lo stesso
lavoro ma da decenni.
altrimenti più aggressivo ed educativo:

installa blast sul pc (deb: blast+) scaricati un database di riferimento e
compilalo con le opportune blast tools.
interfacciati con bioperlo biopython e potrai costrire il report che vuoi.

Welcome to bioinformatics.


Il giorno 11 giugno 2018 17:03, Federico Calboli <f.calboli@xxxxxx.xyz> ha
scritto:

Citazione:
Aloha,

io vorrei tirare ERLUG in qualche schema maligno, ma purtroppo no, roba
innocua. Uno studente ha un pacco di sequenze di DNA che ha spedito a un
losco sito, Barcode Of Life Database, che usa blast per trovare le specie a
cui ogni sequenza da un match. Il problema e` che il risultato e` offerto
in modo demente, per sui uno ha da fare, a manina, copy/paste dei risultati:

http://www.boldsystems.org/index.php/IDS_IdentificationRequest/view?
jobId=fmheindler.identificationRequest_fmheindler_7B25AB67-0872-42F1-
83E5-C723DD221CBD.H:bold_jobserver-vm:10780681

Che ci sia una API penso di si, ma di stare a ciappinare per giorni per
risolvere un problema di fuffa non si ha tempo (si fa prima a fare
copia/incolla a mano!). Voi, intelletti supremi che tutto conoscete, avete
idea di come pigliare i risultati in modo svelto e sagace, o si ha da fare
a mano?

Ciao

F

--
Federico Calboli
f.calboli@xxxxxx.xyz

_______________________________________________
Erlug mailing list
Erlug@xxxxxx.xyz
http://erlug.linux.it/cgi-bin/mailman/listinfo/erlug
-----------------------------------------------------------
ErLUG webzine: http://erlug.linux.it
Manuali FDL:
LinuxFacile - http://linuxfacile.medri.org/
Linux Da Zero - http://erlug.linux.it/linuxdazero/
Connettivita' offerta da Ehiweb.it - http://www.ehiweb.it/
-----------------------------------------------------------

Top
Federico Calboli
Ospite





MessaggioInviato: Mer 13 Giu 2018 09:48    Oggetto: data harvesting da pagina web Rispondi citando

On 12 Jun 2018, at 18:38, Ivan Rossi <rouge2507@xxxxxx.xyz> wrote:
Citazione:

io vedo due strade:

1) installa bioperl o biopython che hanno le funzioni per interfacciarsi a blast e parsare i risultati.
2) invece di usare un sito di dubbia qualità interfacciati con uno dei tool di cui sopra al blast di NCBI o a quello dell EBI, che fanno lo stesso lavoro ma da decenni.
altrimenti più aggressivo ed educativo:

installa blast sul pc (deb: blast+) scaricati un database di riferimento e compilalo con le opportune blast tools.
interfacciati con bioperlo biopython e potrai costrire il report che vuoi.

Welcome to bioinformatics.

a dio piacendo sono problemi dello studente e non miei, per cui lascio che paciughi con il database che preferisce.

Ciao!

F


--
Federico Calboli
f.calboli@xxxxxx.xyz
Top
Mostra prima i messaggi di:   
Nuovo argomento   Rispondi    Indice del forum -> ERLUG Tutti i fusi orari sono GMT + 1 ora
Pagina 1 di 1

 
Vai a:  
Non puoi inserire nuovi argomenti
Non puoi rispondere a nessun argomento
Non puoi modificare i tuoi messaggi
Non puoi cancellare i tuoi messaggi
Non puoi votare nei sondaggi


Powered by phpBB © 2001, 2005 phpBB Group
phpbb.it

torna alla home page di ERLUG
Per informazioni o problemi, contattare info@erlug.linux.it.
La connettività per questo sito e per gli altri nostri servizi è offerta da Ehiweb.it