Zabawa z pamięcią

Wreszcie znalazłam stronę z dużymi danymi, zostawiam ją tutaj, żeby nie zgubić: http://konect.uni-koblenz.de/networks/

Tutaj dane wreszcie są ogromne  – sieć Wikipedii ma około 6 GB podczas gdy dotychczasowe dane z którymi się borykałam miały do 2 GB.

Żeby wgrać plik do HDFS, czyli rozproszonego systemu plików, żeby można go było użyć z modelem MapReduce, muszę umieścić ten plik tymczasowo na jednej z maszynie na uczelnii. Niby nie ma problemu, jak zobaczyłam ile taka maszyna ma wolnej pamięci na dysku to jest tego z 500 GB. Okazuje się jednak, że studenci nie mają dostępu do całej wolnej pamięci, tylko mają wydzielone miejsce na dysku sieciowym – a on nie przekracza 2 GB.

Tak więc kombinuję jak umieścić plik 6 gigowy w HDFS. Wymyśliłam następujące obejście problemu: skopiuję plik na pendrive, podłęczę go fizycznie do maszyny i wyślę do HDFS z pendrive’a.

Wczoraj prawie mi się udało. Niestety, wpadłam na pomysł usunięcia pierwszej linii pliku, która była komentarzem, więc była mi nie potrzebna. Uczelniany Linux nie poradził sobie z zapisaniem tego pliku na nowo – a właściwie zawiodła moja cierpliwość, plik ma 6 GB więc to nie było takie proste go zapisać i chyba przerwałam zapis. Rezultat był taki, że plik miał już tylko 3 GB.Pojawił się problem – w internecie ten plik jest ładnie skompresowany do 3 GB, ale nie miałam go jak wypakować, skompresowany i wypakowany mają razem 9 GB, a ja miałam tylko 8 GB na pendrive 😦 i to nie całe, bo takie pamięci są zawsze zaśmiecone ukrytymi plikami.

Tak więc plan na dziś to przegrać ten plik ponownie na pendrive i wziąć ze sobą notebooka, żeby móc w razie czego ściągnąć i rozpakować plik jeszcze raz. Trzeba będzie znowu ruszyć na uczelnię, ale dzisiaj nie mam innych planów. Takie luźne weekendy są najlepsze na poświęcenie pracy magisterskiej, w ciągu tygodnia mam tylko parę godzin, a teraz mogę się całkowicie na tym skupić.

W czasie kiedy pliki będą się kopiować, będę czytać następujące artykuły:
Solving Large Graph Problems in MapReduce-Like Frameworks via Optimized Parameter Conguration, Huanle Xu, Ronghai Yang1, Zhibo Yang and Wing Cheong Lau

A MapReduce-based approach for shortest path problem in large-scale networks, Sabeur Aridhi, Philippe Lacomme, Libo Ren, Benjamin Vincent

Zapowiada się pracowity dzień!

Reklamy

Skomentuj

Wprowadź swoje dane lub kliknij jedną z tych ikon, aby się zalogować:

Logo WordPress.com

Komentujesz korzystając z konta WordPress.com. Wyloguj /  Zmień )

Zdjęcie na Google+

Komentujesz korzystając z konta Google+. Wyloguj /  Zmień )

Zdjęcie z Twittera

Komentujesz korzystając z konta Twitter. Wyloguj /  Zmień )

Zdjęcie na Facebooku

Komentujesz korzystając z konta Facebook. Wyloguj /  Zmień )

Connecting to %s