Precedente :: Successivo |
Autore |
Messaggio |
Federico Calboli Ospite
|
Inviato: Mar 12 Giu 2018 06:59 Oggetto: data harvesting da pagina web |
|
|
Aloha,
io vorrei tirare ERLUG in qualche schema maligno, ma purtroppo no, roba innocua. Uno studente ha un pacco di sequenze di DNA che ha spedito a un losco sito, Barcode Of Life Database, che usa blast per trovare le specie a cui ogni sequenza da un match. Il problema e` che il risultato e` offerto in modo demente, per sui uno ha da fare, a manina, copy/paste dei risultati:
http://www.boldsystems.org/index.php/IDS_IdentificationRequest/view?jobId=fmheindler.identificationRequest_fmheindler_7B25AB67-0872-42F1-83E5-C723DD221CBD.H:bold_jobserver-vm:10780681
Che ci sia una API penso di si, ma di stare a ciappinare per giorni per risolvere un problema di fuffa non si ha tempo (si fa prima a fare copia/incolla a mano!). Voi, intelletti supremi che tutto conoscete, avete idea di come pigliare i risultati in modo svelto e sagace, o si ha da fare a mano?
Ciao
F
--
Federico Calboli
f.calboli@xxxxxx.xyz |
|
Top |
|
|
Davide Brini Ospite
|
Inviato: Mar 12 Giu 2018 07:11 Oggetto: data harvesting da pagina web |
|
|
On Mon, 11 Jun 2018 17:03:05 +0200, Federico Calboli <f.calboli@xxxxxx.xyz>
wrote:
Citazione: | Aloha,
io vorrei tirare ERLUG in qualche schema maligno, ma purtroppo no, roba
innocua. Uno studente ha un pacco di sequenze di DNA che ha spedito a un
losco sito, Barcode Of Life Database, che usa blast per trovare le specie
a cui ogni sequenza da un match. Il problema e` che il risultato e`
offerto in modo demente, per sui uno ha da fare, a manina, copy/paste dei
risultati:
http://www.boldsystems.org/index.php/IDS_IdentificationRequest/view?jobId=fmheindler.identificationRequest_fmheindler_7B25AB67-0872-42F1-83E5-C723DD221CBD.H:bold_jobserver-vm:10780681
Che ci sia una API penso di si, ma di stare a ciappinare per giorni per
risolvere un problema di fuffa non si ha tempo (si fa prima a fare
copia/incolla a mano!). Voi, intelletti supremi che tutto conoscete,
avete idea di come pigliare i risultati in modo svelto e sagace, o si ha
da fare a mano?
|
Lo vedo solo io il bottone "download", o non ho capito nulla? |
|
Top |
|
|
Davide Brini Ospite
|
Inviato: Mar 12 Giu 2018 07:33 Oggetto: data harvesting da pagina web |
|
|
On Mon, 11 Jun 2018 17:15:15 +0200, Davide Brini <db72@xxxxxx.xyz> wrote:
Citazione: | On Mon, 11 Jun 2018 17:03:05 +0200, Federico Calboli <f.calboli@xxxxxx.xyz>
wrote:
Citazione: | Aloha,
io vorrei tirare ERLUG in qualche schema maligno, ma purtroppo no, roba
innocua. Uno studente ha un pacco di sequenze di DNA che ha spedito a
un losco sito, Barcode Of Life Database, che usa blast per trovare le
specie a cui ogni sequenza da un match. Il problema e` che il
risultato e` offerto in modo demente, per sui uno ha da fare, a manina,
copy/paste dei risultati:
http://www.boldsystems.org/index.php/IDS_IdentificationRequest/view?jobId=fmheindler.identificationRequest_fmheindler_7B25AB67-0872-42F1-83E5-C723DD221CBD.H:bold_jobserver-vm:10780681
Che ci sia una API penso di si, ma di stare a ciappinare per giorni per
risolvere un problema di fuffa non si ha tempo (si fa prima a fare
copia/incolla a mano!). Voi, intelletti supremi che tutto conoscete,
avete idea di come pigliare i risultati in modo svelto e sagace, o si ha
da fare a mano?
|
Lo vedo solo io il bottone "download", o non ho capito nulla?
|
Ok, non avevo capito nulla.
Come NON farlo, però se hai fretta dovrebbe darti un inizio:
#!/bin/bash
declare -a urls
results™ # cambia se vuoi più risultati per tabella
oIFS=$IFS
IFS=$'\n'
urls=( $(curl -s \
'http://www.boldsystems.org/index.php/IDS_IdentificationRequest/view?jobId=fmheindler.identificationRequest_fmheindler_7B25AB67-0872-42F1-83E5-C723DD221CBD.H:bold_jobserver-vm:10780681'| \
grep 'IDS_SingleResult' | \
sed 's|.*result="\([^"]*\)".*|http://www.boldsystems.org\1\&format=panel\&display='"$results"'|') )
IFS=$oIFS
count=1
for url in "${urls[@]}"; do
curl -o $(printf "%04d.html" "$count") "$url"
((count++))
done
Con questo hai N pagine 0001.html, 0002.html etc. da cui puoi estrarre i
dati (con un altro po' di sed e di madonne). |
|
Top |
|
|
Federico Calboli Ospite
|
Inviato: Mer 13 Giu 2018 00:34 Oggetto: data harvesting da pagina web |
|
|
<snip>
Citazione: | Con questo hai N pagine 0001.html, 0002.html etc. da cui puoi estrarre i
dati (con un altro po' di sed e di madonne).
|
Grazie. Passai allo studente, vedremo che combina!
Ciao!
F
--
Federico Calboli
f.calboli@xxxxxx.xyz |
|
Top |
|
|
Davide Brini Ospite
|
Inviato: Mer 13 Giu 2018 01:33 Oggetto: data harvesting da pagina web |
|
|
On Tue, 12 Jun 2018 10:37:24 +0200, Federico Calboli <f.calboli@xxxxxx.xyz>
wrote:
Citazione: | <snip>
Citazione: | Con questo hai N pagine 0001.html, 0002.html etc. da cui puoi estrarre i
dati (con un altro po' di sed e di madonne).
|
Grazie. Passai allo studente, vedremo che combina!
|
Con un po' più di calma ho guardato le pagine, e (a parte che sono
frammenti di HTML e non documenti completi) l'HTML che contengono è una
bella ciofeca (per essere buoni). Meglio usare tool come beautifulsoup (se
funziona) per trasformarle in qualcosa di parsabile.
Ciao! |
|
Top |
|
|
Federico Calboli Ospite
|
Inviato: Mer 13 Giu 2018 03:45 Oggetto: data harvesting da pagina web |
|
|
On 12 Jun 2018, at 11:36, Davide Brini <db72@xxxxxx.xyz> wrote:
Citazione: |
On Tue, 12 Jun 2018 10:37:24 +0200, Federico Calboli <f.calboli@xxxxxx.xyz>
wrote:
Citazione: | <snip>
Citazione: | Con questo hai N pagine 0001.html, 0002.html etc. da cui puoi estrarre i
dati (con un altro po' di sed e di madonne).
|
Grazie. Passai allo studente, vedremo che combina!
|
Con un po' più di calma ho guardato le pagine, e (a parte che sono
frammenti di HTML e non documenti completi) l'HTML che contengono è una
bella ciofeca (per essere buoni). Meglio usare tool come beautifulsoup (se
funziona) per trasformarle in qualcosa di parsabile.
|
libreoffice apre i vari html in modo accettabile per pigliare i dati, per cui funge!
Grazie ancora,
Ciao
F
--
Federico Calboli
f.calboli@xxxxxx.xyz |
|
Top |
|
|
Ivan Rossi Ospite
|
Inviato: Mer 13 Giu 2018 08:35 Oggetto: data harvesting da pagina web |
|
|
io vedo due strade:
1) installa bioperl o biopython che hanno le funzioni per interfacciarsi a
blast e parsare i risultati.
2) invece di usare un sito di dubbia qualità interfacciati con uno dei tool
di cui sopra al blast di NCBI o a quello dell EBI, che fanno lo stesso
lavoro ma da decenni.
altrimenti più aggressivo ed educativo:
installa blast sul pc (deb: blast+) scaricati un database di riferimento e
compilalo con le opportune blast tools.
interfacciati con bioperlo biopython e potrai costrire il report che vuoi.
Welcome to bioinformatics.
Il giorno 11 giugno 2018 17:03, Federico Calboli <f.calboli@xxxxxx.xyz> ha
scritto:
Citazione: | Aloha,
io vorrei tirare ERLUG in qualche schema maligno, ma purtroppo no, roba
innocua. Uno studente ha un pacco di sequenze di DNA che ha spedito a un
losco sito, Barcode Of Life Database, che usa blast per trovare le specie a
cui ogni sequenza da un match. Il problema e` che il risultato e` offerto
in modo demente, per sui uno ha da fare, a manina, copy/paste dei risultati:
http://www.boldsystems.org/index.php/IDS_IdentificationRequest/view?
jobId=fmheindler.identificationRequest_fmheindler_7B25AB67-0872-42F1-
83E5-C723DD221CBD.H:bold_jobserver-vm:10780681
Che ci sia una API penso di si, ma di stare a ciappinare per giorni per
risolvere un problema di fuffa non si ha tempo (si fa prima a fare
copia/incolla a mano!). Voi, intelletti supremi che tutto conoscete, avete
idea di come pigliare i risultati in modo svelto e sagace, o si ha da fare
a mano?
Ciao
F
--
Federico Calboli
f.calboli@xxxxxx.xyz
_______________________________________________
Erlug mailing list
Erlug@xxxxxx.xyz
http://erlug.linux.it/cgi-bin/mailman/listinfo/erlug
-----------------------------------------------------------
ErLUG webzine: http://erlug.linux.it
Manuali FDL:
LinuxFacile - http://linuxfacile.medri.org/
Linux Da Zero - http://erlug.linux.it/linuxdazero/
Connettivita' offerta da Ehiweb.it - http://www.ehiweb.it/
-----------------------------------------------------------
|
|
|
Top |
|
|
Federico Calboli Ospite
|
Inviato: Mer 13 Giu 2018 09:48 Oggetto: data harvesting da pagina web |
|
|
On 12 Jun 2018, at 18:38, Ivan Rossi <rouge2507@xxxxxx.xyz> wrote:
Citazione: |
io vedo due strade:
1) installa bioperl o biopython che hanno le funzioni per interfacciarsi a blast e parsare i risultati.
2) invece di usare un sito di dubbia qualità interfacciati con uno dei tool di cui sopra al blast di NCBI o a quello dell EBI, che fanno lo stesso lavoro ma da decenni.
altrimenti più aggressivo ed educativo:
installa blast sul pc (deb: blast+) scaricati un database di riferimento e compilalo con le opportune blast tools.
interfacciati con bioperlo biopython e potrai costrire il report che vuoi.
Welcome to bioinformatics.
|
a dio piacendo sono problemi dello studente e non miei, per cui lascio che paciughi con il database che preferisce.
Ciao!
F
--
Federico Calboli
f.calboli@xxxxxx.xyz |
|
Top |
|
|
|
|
Non puoi inserire nuovi argomenti Non puoi rispondere a nessun argomento Non puoi modificare i tuoi messaggi Non puoi cancellare i tuoi messaggi Non puoi votare nei sondaggi
|
|