Pagina principala » HOWTO » Construiți un planificator de descărcare cu puțină abilitate de programare

    Construiți un planificator de descărcare cu puțină abilitate de programare

    Cu totii iubim sa descarcam chestii de pe internet si exista grave mari instrumente de manager de download pe care le putem folosi pentru a programa download-urile noastre. S-ar putea să fie mai ușor să utilizați un manager de descărcare, dar nu există nici un rău în explorarea instrumentelor care apar deja cu Ubuntu și să o folosim pe deplin.

    În acest articol vă vom arăta un software construit în Ubuntu pe care îl putem folosi pentru a descărca materiale de pe internet folosind wget. În plus, vă vom arăta cum să programați descărcarea utilizând Cron.

    Descărcați utilizând Wget

    Wget este un pachet software gratuit pentru recuperarea fișierelor utilizând HTTP, HTTPS și FTP, cele mai utilizate protocoale Internet. Este un instrument non-interactiv pentru linia de comandă, deci poate fi ușor apelat din scripturi, sarcini cron, terminale fără suport pentru X-Windows etc..

    Deschideți terminalul și să explorăm modul în care putem folosi wget pentru a descărca chestii de pe net. Sintaxa de bază a descărcării cu wget este următoarea:

    wget [opțiune] ... [URL] ...

    Această comandă va descărca manualul wget în unitatea locală

    wget http://www.gnu.org/software/wget/manual/wget.pdf

    Linux Cron

    Ubuntu vine cu un daemon cron folosit pentru programarea sarcinilor care trebuie executate la un moment dat. Crontab vă permite să specificați acțiunile și orele în care ar trebui să fie executate. Acesta este modul în care ați programa în mod normal o sarcină utilizând instrumentul pentru linia de comandă.

    Deschideți o fereastră terminal și introduceți crontab -e.

    Fiecare secțiune dintr-un crontab este separată de un spațiu, secțiunea finală având unul sau mai multe spații în el. O intrare cron constă în minute (0-59), oră (0-23, 0 = miezul nopții), zi (1-31), lună (1-12), săptămână (0-6, 0 = duminică). A treia intrare în crontabul de mai sus descarcă wget.pdf la ora 2 dimineața. Prima intrare (0) și a doua intrare (2) înseamnă 2:00. A treia până la a cincea intrare (*) înseamnă orice oră din zi, lună sau săptămână. Ultima intrare este comanda wget pentru a descărca wget.pdf de la adresa URL specificată.

    Acestea sunt cele de bază pe Wget și cum funcționează Cron. Să luăm o pradă într-un exemplu de viață reală despre cum să programați o descărcare.

    Programare Descărcare

    Vom descărca Firefox 3.6 la ora 2 AM.Deoarece ISP oferă doar o cantitate limitată de date, trebuie să oprim descărcarea la ora 8 AM. Acesta este aspectul configurației.

    Ignorați primele 2 intrări din crontabul de mai sus. A treia și a patra comandă sunt singurele două comenzi de care aveți nevoie. A treia comandă configurează o sarcină care va descărca Firefox la 2 AM:

    [cod]
    0 2 * * * wget -c http://download.mozilla.org/?product=firefox-3.6.6&os=win&lang=ro
    [/cod]

    Opțiunile -c indică faptul că wget ar trebui să reia descărcarea existentă dacă nu a fost finalizată.

    A patra comandă se va opri la ora 8 dimineața. "Killall" este o comandă unix care ucide procesele după nume.

    [cod]
    0 8 * * * killall wget
    [/cod]

    Killall wget spune Ubuntu să oprească wget de la descărcarea fișierului la ora 8 AM.

    Alte comenzi wget utile

    1. Specificarea directorului pentru a descărca un fișier

    [cod]
    wget -output-document = / home / zainul / Descărcări / wget manual.pdf http://www.gnu.org/software/wget/manual/wget.pdf
    [/cod]

    opțiunea -output-document vă permite să specificați directorul și numele fișierului pe care îl descărcați

    2. Descărcarea unui site web

    wget este de asemenea capabil să descarce un site web.

    [cod]
    wget -m http://www.google.com/profiles/zainul.franciscus
    [/cod]

    Comanda de mai sus îmi va descărca întreaga pagină web de profil Google. Opțiunea "-m" îi spune lui wget să descarce o imagine "mirror" a adresei URL specificate.

    O altă opțiune importantă este de a spune wget câte linkuri ar trebui să aibă în vedere atunci când descarcă un site Web.

    [cod]
    wget -r -l1 http://www.google.com/profiles/zainul.franciscus
    [/cod]

    Comanda wget de mai sus utilizează două opțiuni. Prima opțiune '-r' spune Wget să descarce site-ul web specificat recursiv. A doua opțiune "-l1" îi spune lui wget să obțină doar primul nivel de link-uri de pe acel site specificat. Putem seta până la trei niveluri "-12" și "-13".

    3. Ignorarea intrării robotului

    Web master menține un fișier text numit Robot.txt. "Robot.txt" menține o listă de adrese URL pe care o crawler de pagină web, cum ar fi wget, nu ar trebui să acceseze cu crawlere. Putem spune wget să ignore opțiunea 'Robot.txt' cu '-erobots = off'. Următoarea comandă îi spune lui wget să descarce prima pagină a profilului meu Google și să ignore "Robot.txt".

    [cod]
    wget -erobots = oprit http://www.google.com/profiles/zainul.franciscus
    [/cod]

    O altă opțiune utilă este -U. Această opțiune va masca wget ca browser. Rețineți că mascarea unei aplicații ca o altă aplicație poate încălca termenul și serviciul unui furnizor de servicii web.

    [cod]
    wget -erobots = oprit -U Mozilla http://www.google.com/profiles/zainul.franciscus
    [/cod]

    Concluzie

    Wget este un pachet foarte vechi de școală, încă hackble GNU, pe care îl putem folosi pentru a descărca fișiere. Wget este un instrument interactiv de linie de comandă, ceea ce înseamnă că îl putem lăsa să ruleze pe computerul nostru în fundal fără a fi nevoie să pornească nicio aplicație. Consultați pagina man wget

    [cod]
    $ man wget
    [/cod]

    pentru a înțelege alte opțiuni pe care le putem folosi cu wget.

    Link-uri

    Wget Manual
    Cum se combină două fișiere descărcate când wget nu reușește la jumătatea drumului
    Linux QuickTip: descărcare și descărcare într-un singur pas