polecenie : wget

os.y · Sierpień 15, 2024, 06:20:34 PM

Znalazłem sobie fajną stronkę: https://staremelodie.pl
z wszystki co zostało w jakiś sposób utrwalone w latach 1900-10-20-30 i troszeczkę 40-tych a dotrwało do obecnych czasów a dziś jest dostępne w formacie mp3 - ot, stronkę z piosenkami tamtych lat.
Ładną jak się okazało "stronkę" - plików ok 65.000 o wadze ok 50GB a samych *.mp3 ponad 8.000.

Oczytałem się na temat, pokopiowałem co mogło mi się przydać i wyszło mi, że pod Sparky na ext4, poleceniem konsolowym:
wget -c -k -l10 -nc -np -p -r -P /media/_/L_FAT32_1/v_2024-08-13/ https://staremelodie.pl
mogę sobie całą stronkę sciagnąć.
Paramert [-m] nie zdał egzaminu gdyż jak się okazało przy pierwszej próbie pobrania uwidocznił się błąd w kodzie, który nie uruchomił pętli nieskończonej ale powodował tworzenie chyba w nieskończoność w danym katalogu podkatalogu z tą samą zawartością która uruchamiała proces tworzenia kolejnego, obarczonego tym samym błędem w nim podkatalogu. Dostrzegłem problem i przerwałem proces pobierania pełnej strony jak się okazało przy ok 2setnej głębokości zagnieżdżeń. Stąd polecenie [-m] rozbiłem na części by móc wprowadzić parametr bezpieczeństwa [-l10] chroniący przed wystąpienia tego problemu.

Niestety, stronka po pobraniu, po otworzeniu w przeglądarce nie przybrała wyglądu oryginału. Wszystkie jej bloki nie utworzyły tabeli a wyświetliły się jeden pod drugim. Czytelność stronki uległa istotnemu zamazaniu.

Spróbowałem przekopiować stronkę na partycje FAT32 by na innym komputerze w windowsem móc ją otworzyć.
I tu kompletne zaskoczenie, czy nie doczytałem, czy całkowicie zapomniałem o tym, że Linux jako taki dopuszcza tworzenie plików z nazwami zawierającymi znaki dla windowsa zastrzeżonymi, np: [:] [%] i kilku innymi więc proces kopiowania się zawiesił.
To jeden z ewentualnych powodów.
Drugim ewentualnym była odmowa skopiowania ok 20 plików o zwykłych nazwach ja pozostałe, ani za długich, ani bez owych zastrzeżonych znakach a jednak - tolerowana została dopiero nazwa nie dłuższa od 22 znaków.
Pozostało stronkę porzucić, wyrzucić pozostawiając sobie na wszelki wypadek katalogi z mp3kami.

Spróbowałem pobrać tą stronkę pod windowsem programem winHTTracker_i coś tam jeszcze. I tym razem proces pobierania całkowicie zniechęcił, pierwszym razem utkwił po pobraniu ok 2.500 mp3-ek wraz z pilikami im towarzyszącymi na owj pętli niepętli a drugim razem trwa i trwa nie mogąć zakończyć procedury parsowania plików html.

Pytania :
1. Co robię nie tak, gdyż wiadomo, że komputer robi dokładnie to co ma nakazano ?
2. Jak zautomatyzować uzupełnianie nazw plików typu mp3 o nazwy wykonawców ?
Pobrane mp3ki mają nazwy w formacie jak ta: A_ci_to_mi_dziwna_zona_1631662614 - tytuł piosenki i jakiś numer identyfikacyjny by móc znajdować się w jednym katalogu.
Problemem jest to, że ten numer jest z... nikąd, jest indywidualny i nie występuje już nigdzie.
Uruchomiłem opcję hardcorową : by mieć te pliki w formacie
[wykonawca - tytuł _rok nagrania _ orkiestra towarzysząca]
i móc je uporządkować w katalogach wg wykonawcy robię to ręcznie.
Przypomnę, poinformuję, że w tamtych czasach tą samą piosenkę z zasady opracowywała niezliczona ilość wykonawców a z zasady 2-7 nagrywało na płytach. By móc więc konktetnemu plikowi przypisać wykonawcę muszę choć jego fragment umieszczon na stonce odsłuchać, porównać z posiadanym zastawem o tym samym tytule i zgadywać czy ten czy tamten wykonawca ją wykonuje. A głosy tak męskie jak i żeńskie wykonawców są nie tylko niezwykle podobne ale i maniera wykonawcza bez mała jest identyczna.

Pozdtawiam.

A... dlaczego nie mogę wejść na FORUM spod windowsa ?

r6 · Sierpień 16, 2024, 11:35:15 PM

Cytat: os.y w Sierpień 15, 2024, 06:20:34 PMSpróbowałem pobrać tą stronkę pod windowsem programem winHTTracker_i coś tam jeszcze.

Na Debianie 12 jest to:

Kod [Zaznacz]

httrack/stable 3.49.4-1 amd64
  Copy websites to your computer (Offline browser)

Nie używałem więc nic więcej napisać nie mogę.

os.y · Sierpień 17, 2024, 07:47:29 AM

Dzieki za dobre słowo :)

Sparky to w istocie modyfikowany Debian.

Rozglądałem sie i za takim rozwiązaniem ale odnośnika do tego programu w APTUsie nie znalazłem więc dałem sobie spokój gdyż ręczny sposób instalacji programu a później konsolowa jego obsługa przerasta moje linuxowe umiejętności.

Istotą problemu zdaje się, że są błędy w kodzie stronki.
Pisana jest chyba pod linuxem wiec nie uwzględnia realiów windosowskich - owe zastrzeżone znaki w nazwach plików.
Pracowało nad nią chyba wiele osób nie tylko na polskiej klawiaturze, gdyż nazwy utworów zapisane są w różnych stronach kodowych. Praykładem pozycja 2588 w katalogu [piosenka] dotycząca utworu "Voilà" gdzie dużym problemem pod windowsem jest owe [a] z przecinkiem tzn [à] lub sam kod źródłowy html-u którego winHTTracker mieli i mieli w procesie pobierania.
Źle opisałem wcześniej problem pętli jaka ma miejsce pomiędzy katalogami 675 a 752 odnoszącymi się do siebie nawzajem chyba w nieskończoność.
Problemem i to co widać przy próbie wywołania podstron ze strony głównej już pobranej strony, tzn wyświetlanie nie "strony" a jej kodu źródłowego.
Gdzieś czytałem o potrzebie wydania dodatkowego polecenia w wget-cie odnośnie przeprowadzenia konwertowania stron opracowanych w innych językach ale nie mogę tego powtórnie odszukać ale już i tak dałem sobie z tym spokój.

Wpadłem i na pomysł pobrania surowej strony i przekonwertowania odnośników w osobnym procesie już na kodzie który miałbym u siebie ale widocznie kiepsko szukam gdyż stosownej informacji o tym, "jak to zrobić" nigdzie nie znalazłem.

NIE MIAŁA BABA KŁOPOTU... KUPIŁA SOBIE CIELĘ :)

Dzięki :)

A... do admina: dalej nie mogę zalogować się na FORUM spod windowsa.

r6 · Sierpień 17, 2024, 04:56:25 PM

Cytat: os.y w Sierpień 17, 2024, 07:47:29 AMRozglądałem sie i za takim rozwiązaniem ale odnośnika do tego programu w APTUsie nie znalazłem więc dałem sobie spokój gdyż ręczny sposób instalacji programu a później konsolowa jego obsługa przerasta moje linuxowe umiejętności.

Polecenie wget też obsługiwałeś z terminala.
Może zacznij od uzyskania zgody na zrobienie kopii strony. :)
Powodzenia.

os.y · Sierpień 17, 2024, 08:39:14 PM

Tak, polecenie wget obsługiwałem z poziomu terminala ale...
i cyrkową małpkę można nauczyć jeździć na rowerze.
Tak oceniam swe umiejętności i sprawność kożystania z linuxa.

Co do zgody to...
Każdą dowolną tam umieszczoną piosenkę można swobodnie sobie skopiować wiec można i wszystkie.
Każdą dowolną odtwarzaną wewnętrznym odtwarzaczem można przechwycić dzięki programowi np audacity.
Można też skopiować, kożystając z umieszczonego tam stosownego odnośnika, każdą piosenkę znajdującą się na youtube.com i archiwum.org więc nie w tym problem.

A teraz kombinuję, jak oczyścić kod podstronki "Fonoteka - Stare Melodie" ze śmieciowej dla mnie partii kodu by pozostały tylko linki do podstronek każdej z piosenek i bym dzieki tak stworzonej liście, kożystając z jednej z opci wget-a mógł je sobie skopiować jako całkiem oddzielne strony.
Każda przeglądarka ma funkcję : "Utwórz kopię strony". Mając te ok 8.000 oddzielnych już stron mógłbym stosownie, wg swego widzimisie nadać każdej mp3ójce zadawalającą mnie nazwę i dowolnie się później nimi wszystkimi raczyć.

Ale ze mnie gaduła. Dość.
Ale to TY jesteś temu winien bo tak agresywnie mnie wypytujesz :)

Pozdrawiam

P.S. Wojna blisko, jedno nawet małe bum może zniszczyć nie tylko fizyczy ślad po kulturze muzycznej tamtych lat ale i wymazać z pamieci informacje, że takie piękne zbiory jeszcze za naszych czasów istniały. Tak włąściwie to tylko wielokrotne powielenie po całym kraju tych zasobów daje gwarancje przeniesienie kultury muzycznej tamtych czasów w przyszłość.

os.y · Sierpień 19, 2024, 06:32:58 PM

Może inaczej.
Fajną opcją przeglądarek www jest wydanie polecenia : [Kopiuj stronę].
Wszystko co na niej jest dostępne w oryginale jest i dostępne w takiej kopii.
Uruchamia się w takiej kopii, przy odłączonym necie, wewnętrzny odtwarzacz a ten odtwarza opisywaną na stronce pozycje bez przeszód - muzyczka gra.
Ot, w procesie robienia kopii wszytkie dostępne w oryginale elementy stronki dostępne są w kopii nawet gdy w oryginale znajdywały się w różnych innych katalogach.

Może ktoś zna sposób na to by zmusić przeglądarkę do wykonania automatycznie tych kilku tysięcy kopii podstonek opisujących i zawierających różne wersje opisywanej piosenki ?

Pozdrawiam

r6 · Sierpień 19, 2024, 09:50:50 PM

CytatStrona StareMelodie.pl jest próbą przypomnienia i zatrzymania w pamięci Polaków fragmentu kultury popularnej lat 20 - 50 XX wieku.
Treści zawarte na stronach http://staremelodie.pl nie są wiarygodnym źródłem informacji na temat tekstów, autorów i wykonawców.
Strona ta jest zbiorem materiałów dostępnych w sieci, pomysłem kierownika-magazyniera, pasjonaty, jakich wielu w otchłani Internetu.

Strona ma charakter non-profit, jednak utrzymanie jej pociąga za sobą spore koszty:

opłata serwera
utrzymanie domeny
zakup nagrań
zakup nut

Jeśli chciałbyś wspomóc ideę Starych Melodii - użyj XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

lub przelewem na konto XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

Dziękuję ;)

Ja bym tej strony nie kopiował.

os.y · Sierpień 19, 2024, 11:07:33 PM

Przez ok 15 lat nagrywałem na komputerze, jak za dawnych czasów na magnetofonie, audycje muzyczne, w tym te z piosenkami tamtych lat.
A... pochwale się.
W katalogu [_pl (30-60) _instr] mam 650 tzw polskich utworów instrumentalnych.
W katalogu [_pl (30-60) - POP] 3284 polskich piosenek (w wiekszości nagranych z zapowiedziami radiowych przezenterów PR Rzeszów, PR Pik tzn Pomorza i Kujaw z Bydgoszczy i Programu I PR z Warszawy).
I ostatnio jakoś tak natknąłem się na stronkę www.staremelodie.pl.
Oczywistym dla mnie jest, że zchciało mi się ją obejrzeć, zobaczyć czym dysponuje.
Już na pierwszy rzut oka nie miałem wątpliwości, że tn zbiór istotnie przewyszsza ten mój, skarajnie amatorski.
Spróbowałem pokombinować jak by do niego sie dobrać.
Troszkę już tu o tym ciut wyżej napisałem.
Już pierwsze, całkiem nieudane podejście uświadomiło mi fakt, jaki zbiór jakim dysponuje jest wielki.

I TY sie dziwisz, że chcę się do niego dobrać gdy już wiem, że mam do czynienia z przeogromnym zbiorem autorskim kilku zawodowych pasjonatów oraz odnośnikami do youtube na którym jest kolejne ok 1.000 pozycji których w podstawowym zbiorze nie ma oraz odnośnikami do kolejnych ok 500 pozycji ze zbiorów archive.org (w wiekszości twórczość zespołów polonijnych lat 1900-1920) ?

I właśnie dlatego ja! tę stronkę chce skopiować, bym niezależnie od sprawności internetu mógł sobie, jak pisałem już wcześniej, wyułskać z niej wszytkie mp3ki i je stosowne opisać by później się nimi raczyć.

Przy kopiowaniu stronki/serwisu winHTTrack-erem pod windowsem rzeczywiście kopiowanych jest sporo katalogów firm ubabranych w tworzenie powszechnego systemu permanentnej inwigilacji ale te pobierane wget-em tej przybudówki katalogów nie posiadają.
A jeśli nawet gdzieś indziej te funkcje są pochowane... istnieje jakieś nawet spore ryzyko pozarażania komputera takim świństwem to podejmuję tą próbę łudząc się, że mp3ki wirusów nie przenoszą bo reszta po wykorzystaniu i tak pójdzie do skasowania.

Pozdrawiam.

Tak, są na tym świecie świry ale pocieszam się, że nie tylko takie :)

pavbaranov · Sierpień 19, 2024, 11:14:31 PM

Z GUI:
WebHTTrack
Fatrat
gwget
KGet (tu głowy nie daję)
Motrix (pierwszy raz zobaczyłem)
Persepolis (nakładka na aria2 - znów nie wiem)

Osobiście, dla robienia klonów stron używałem pierwszego. Tworzy lokalną kopię całej strony www wraz z jej całą zawartością.
Możesz sprobować. Wg mnie warto.

os.y · Sierpień 20, 2024, 12:35:53 AM

r8 zasugerował.
Obruszyłem się ale spróbowałem
pobrałem, zainstalowałem linuxowego Httracka.
uruchomiłem i.... pogubiłem się w odpowiadaniu na kolejne pytania czego czcę a czego nie chcę.
By nie bruździł w systemie Sparky przeinstalowałem.
Teraz...
W miedzyczasie znalazłem stronkę : "Ubuntu Manpage wget - nieinteraktywny program do pobierania z sieci"
a na niej informację:

"-p
--page-requisites
Opcja powoduje, że

(...)

Do pobrania pojedynczej strony HTML (lub ich grupy, wszystkich podanych w wierszu poleceń
lub w pliku wejściowym URL-i -i) i towarzyszących jej (lub im) elementów, wystarczy pominąć -r i
-l:

wget -p http://<strona>/1.html

Proszę zauważyć, że Wget zachowa się tak, jakby podano opcję -r, ale zostanie pobrana
tylko pojedyncza strona i jej elementy. Program nie będzie podążał za odnośnikami z
tej strony do zewnętrznych dokumentów. Faktycznie, do ściągania pojedynczej strony i
wszystkich towarzyszących jej elementów (nawet jeśli leżą one na odrębnych serwerach
WWW) i upewnienia się, że całość lokalnie poprawnie się wyświetla, autor oprócz -p
korzysta z kilku dodatkowych opcji:

wget -E -H -k -K -p http://<strona>/<dokument>

Kończąc ten temat, warto wiedzieć, że Wget uważa za odnośnik do dokumentu zewnętrznego
każdy URL podany w znaczniku <A>, <AREA> lub <LINK>, oprócz <LINK REL="stylesheet">."

Sporządziłem plik w wszystkimi adresami każdej piosenki z osobna i poleceniem:
wget -c -E -H -k -K -l10 -p -P /media/_/L_FAT32_1/fonoteka/ -i /media/_/L_FAT32_1/fonoteka.txt
testuję jego skuteczność.
W tej chwili mam już pobranych ponad 21GB danych.
Raniutko będę widział skutki.

Dzięki za info i Pozdrawiam.

os.y · Sierpień 20, 2024, 10:05:46 PM

Spodziewałem się troszkę innego efektu końcowego.
Fakt, przełącznik [-i] spowodował, że na dysku znalazł się pełny zestaw stron ale nie samodzielnych jak przy wykozystaniu polecenia przeglądarkowego [Kopiuj stronę] a wszystkie niezbędne oryginalne katalogi ze swą zawartością obsługujące tworzenie piosenkowych podstron.
Taka wersja systemu podstron okazała sie chudsza od pełnej strony o ok 10GB danych.

Pod linuxową przeglądarką zachowany został ogólny sytem tabeli wywoływanuch podstronek wiec oryginalny wygląd jednak z pustymi przestrzeniami gdzie znajdywały się graficzne odnośniki do stron zewnętrznych,np: youtubowych.
Po przeniesieniu na komputer z windowsem, pod windosową przegladarką ogólny system tabeli nie zadziałał. Wszytkie bloki zostały wyświetlone jeden pod drugim. Nie wiem skąd ale w/w puste bloki tu miały youtubowe zdjecia oryginalnej strony ale odnośnik przy odłaczonym necie nie działał więc program z youtuba nie pobrał żadnego materiału.

Pora na ostatnie podejście.
Sugerowany HTTracker w wersji linuxowej z powłoką graficzną.
Po uruchomieniu wyraźnie wolniej sciąga materiał na dysk (mniej wiecej z szybkoscia swego odpowiednika na windowsie) niż linuxowy wget - ok 2 razy wolniej.

No i pora zakończyć w tej sprawie swój występ na FORUM z braku i wiedzy, i umiejętności poradzenia sobie z zasygnalizowanym problemem.

Pozdrawiam.

os.y · Sierpień 26, 2024, 09:05:54 PM

Nieporównamie trudniejszą do pobrania jest stronka :
http://zadania.szachowe.pl/
Chciało by się mieć taką u siebie na kompie i na rozwiązywaniu zadań z np wnukiem wspólnie połamać sobie głowę.
Super stopnie trudności otwiera poziom [1] : mat w jednym posunięciu.
I na tym poziomie można przez chwilkę zasugerowany "łatwizną" zadania pomyśleć.
Stronka ogólnie dostępna ale... [wget] potrafi jedynie pobrać część ubożuchnej witryny strony.

Może by kto spróbował zmierzyć się z tym zadaniem i podzielił się osiągnięciem?

Pozdrawiam.

Ale to ciekawe, stronka służąca propagowaniu szachów wiąże z siecią i limitami dostępu do niej nałożonymi przez np rodziców gdy właśnie jej siłą oddziaływania wina być maksymalna jej dostępność.
Wniosek: Nic za darmo, wszystko choćby za sprzedanie siebie jako obiekt badań statystycznych i swoich danych.