Emilia Romagna Linux Users Group :: Leggi argomento

Emilia Romagna Linux Users Group
i forum di ERLUG
torna alla home page di ERLUG

Forum Subscriptions

FAQ

Cerca

Lista utenti

Gruppi

Registrati

Profilo

Messaggi privati

data harvesting da pagina web

Indice del forum -> ERLUG

Precedente :: Successivo

Autore

Messaggio

Federico Calboli
Ospite

Inviato: Mar 12 Giu 2018 06:59 Oggetto: data harvesting da pagina web

Aloha, io vorrei tirare ERLUG in qualche schema maligno, ma purtroppo no, roba innocua. Uno studente ha un pacco di sequenze di DNA che ha spedito a un losco sito, Barcode Of Life Database, che usa blast per trovare le specie a cui ogni sequenza da un match. Il problema e` che il risultato e` offerto in modo demente, per sui uno ha da fare, a manina, copy/paste dei risultati: http://www.boldsystems.org/index.php/IDS_IdentificationRequest/view?jobId=fmheindler.identificationRequest_fmheindler_7B25AB67-0872-42F1-83E5-C723DD221CBD.H:bold_jobserver-vm:10780681 Che ci sia una API penso di si, ma di stare a ciappinare per giorni per risolvere un problema di fuffa non si ha tempo (si fa prima a fare copia/incolla a mano!). Voi, intelletti supremi che tutto conoscete, avete idea di come pigliare i risultati in modo svelto e sagace, o si ha da fare a mano? Ciao F -- Federico Calboli f.calboli@xxxxxx.xyz

Top

Davide Brini
Ospite

Inviato: Mar 12 Giu 2018 07:11 Oggetto: data harvesting da pagina web

On Mon, 11 Jun 2018 17:03:05 +0200, Federico Calboli <f.calboli@xxxxxx.xyz>
wrote:

Citazione:

Lo vedo solo io il bottone "download", o non ho capito nulla?

Top

Davide Brini
Ospite

Inviato: Mar 12 Giu 2018 07:33 Oggetto: data harvesting da pagina web

On Mon, 11 Jun 2018 17:15:15 +0200, Davide Brini <db72@xxxxxx.xyz> wrote:

Citazione:

On Mon, 11 Jun 2018 17:03:05 +0200, Federico Calboli <f.calboli@xxxxxx.xyz>
wrote:

Citazione:

Lo vedo solo io il bottone "download", o non ho capito nulla?

Ok, non avevo capito nulla.

Come NON farlo, però se hai fretta dovrebbe darti un inizio:

#!/bin/bash

declare -a urls

results™ # cambia se vuoi più risultati per tabella

oIFS=$IFS
IFS=$'\n'
urls=( $(curl -s \
'http://www.boldsystems.org/index.php/IDS_IdentificationRequest/view?jobId=fmheindler.identificationRequest_fmheindler_7B25AB67-0872-42F1-83E5-C723DD221CBD.H:bold_jobserver-vm:10780681'| \
grep 'IDS_SingleResult' | \
sed 's|.*result="$[^"]*$".*|http://www.boldsystems.org\1\&format=panel\&display='"$results"'|') )
IFS=$oIFS

count=1
for url in "${urls[@]}"; do

curl -o $(printf "%04d.html" "$count") "$url"
((count++))

done

Con questo hai N pagine 0001.html, 0002.html etc. da cui puoi estrarre i
dati (con un altro po' di sed e di madonne).

Top

Federico Calboli
Ospite

Inviato: Mer 13 Giu 2018 00:34 Oggetto: data harvesting da pagina web

<snip>

Citazione:

Con questo hai N pagine 0001.html, 0002.html etc. da cui puoi estrarre i
dati (con un altro po' di sed e di madonne).

Grazie. Passai allo studente, vedremo che combina!

Ciao!

F

--
Federico Calboli
f.calboli@xxxxxx.xyz

Top

Davide Brini
Ospite

Inviato: Mer 13 Giu 2018 01:33 Oggetto: data harvesting da pagina web

On Tue, 12 Jun 2018 10:37:24 +0200, Federico Calboli <f.calboli@xxxxxx.xyz>
wrote:

Citazione:

<snip>

Citazione:

Con questo hai N pagine 0001.html, 0002.html etc. da cui puoi estrarre i
dati (con un altro po' di sed e di madonne).

Grazie. Passai allo studente, vedremo che combina!

Con un po' più di calma ho guardato le pagine, e (a parte che sono
frammenti di HTML e non documenti completi) l'HTML che contengono è una
bella ciofeca (per essere buoni). Meglio usare tool come beautifulsoup (se
funziona) per trasformarle in qualcosa di parsabile.

Ciao!

Top

Federico Calboli
Ospite

Inviato: Mer 13 Giu 2018 03:45 Oggetto: data harvesting da pagina web

On 12 Jun 2018, at 11:36, Davide Brini <db72@xxxxxx.xyz> wrote:

Citazione:

On Tue, 12 Jun 2018 10:37:24 +0200, Federico Calboli <f.calboli@xxxxxx.xyz>
wrote:

Citazione:

<snip>

Citazione:

Con questo hai N pagine 0001.html, 0002.html etc. da cui puoi estrarre i
dati (con un altro po' di sed e di madonne).

Grazie. Passai allo studente, vedremo che combina!

libreoffice apre i vari html in modo accettabile per pigliare i dati, per cui funge!

Grazie ancora,

Ciao

F

--
Federico Calboli
f.calboli@xxxxxx.xyz

Top

Ivan Rossi
Ospite

Inviato: Mer 13 Giu 2018 08:35 Oggetto: data harvesting da pagina web

io vedo due strade:

1) installa bioperl o biopython che hanno le funzioni per interfacciarsi a
blast e parsare i risultati.
2) invece di usare un sito di dubbia qualità interfacciati con uno dei tool
di cui sopra al blast di NCBI o a quello dell EBI, che fanno lo stesso
lavoro ma da decenni.
altrimenti più aggressivo ed educativo:

installa blast sul pc (deb: blast+) scaricati un database di riferimento e
compilalo con le opportune blast tools.
interfacciati con bioperlo biopython e potrai costrire il report che vuoi.

Welcome to bioinformatics.

Il giorno 11 giugno 2018 17:03, Federico Calboli <f.calboli@xxxxxx.xyz> ha
scritto:

Citazione:

Aloha,

io vorrei tirare ERLUG in qualche schema maligno, ma purtroppo no, roba
innocua. Uno studente ha un pacco di sequenze di DNA che ha spedito a un
losco sito, Barcode Of Life Database, che usa blast per trovare le specie a
cui ogni sequenza da un match. Il problema e` che il risultato e` offerto
in modo demente, per sui uno ha da fare, a manina, copy/paste dei risultati:

http://www.boldsystems.org/index.php/IDS_IdentificationRequest/view?
jobId=fmheindler.identificationRequest_fmheindler_7B25AB67-0872-42F1-
83E5-C723DD221CBD.H:bold_jobserver-vm:10780681

Che ci sia una API penso di si, ma di stare a ciappinare per giorni per
risolvere un problema di fuffa non si ha tempo (si fa prima a fare
copia/incolla a mano!). Voi, intelletti supremi che tutto conoscete, avete
idea di come pigliare i risultati in modo svelto e sagace, o si ha da fare
a mano?

Ciao

F

--
Federico Calboli
f.calboli@xxxxxx.xyz

_______________________________________________
Erlug mailing list
Erlug@xxxxxx.xyz
http://erlug.linux.it/cgi-bin/mailman/listinfo/erlug
-----------------------------------------------------------
ErLUG webzine: http://erlug.linux.it
Manuali FDL:
LinuxFacile - http://linuxfacile.medri.org/
Linux Da Zero - http://erlug.linux.it/linuxdazero/
Connettivita' offerta da Ehiweb.it - http://www.ehiweb.it/
-----------------------------------------------------------

Top

Federico Calboli
Ospite

Inviato: Mer 13 Giu 2018 09:48 Oggetto: data harvesting da pagina web

On 12 Jun 2018, at 18:38, Ivan Rossi <rouge2507@xxxxxx.xyz> wrote:

Citazione:

io vedo due strade:

1) installa bioperl o biopython che hanno le funzioni per interfacciarsi a blast e parsare i risultati.
2) invece di usare un sito di dubbia qualità interfacciati con uno dei tool di cui sopra al blast di NCBI o a quello dell EBI, che fanno lo stesso lavoro ma da decenni.
altrimenti più aggressivo ed educativo:

installa blast sul pc (deb: blast+) scaricati un database di riferimento e compilalo con le opportune blast tools.
interfacciati con bioperlo biopython e potrai costrire il report che vuoi.

Welcome to bioinformatics.

a dio piacendo sono problemi dello studente e non miei, per cui lascio che paciughi con il database che preferisce.

Ciao!

F

--
Federico Calboli
f.calboli@xxxxxx.xyz

Top

Mostra prima i messaggi di:

	Indice del forum -> ERLUG	Tutti i fusi orari sono GMT + 1 ora
Pagina 1 di 1

Non puoi inserire nuovi argomenti
Non puoi rispondere a nessun argomento
Non puoi modificare i tuoi messaggi
Non puoi cancellare i tuoi messaggi
Non puoi votare nei sondaggi

torna alla home page di ERLUG
Per informazioni o problemi, contattare info@erlug.linux.it.
La connettività per questo sito e per gli altri nostri servizi è offerta da Ehiweb.it