Nowinki   Leave a comment

Nowa wersja Diluvio, ci sami wykonawcy i dyrygent ale nieco postarzeni – https://www.youtube.com/watch?v=qtcbRwXJbR4

Big Data – lata 90. Przetwarzanie dużych ilości danych z sieci rodzi określone kłopoty: dane nie mają struktury (model relacyjny się nie nadaje); przetwarzanie takiej informacji jest kosztowne (nasilenie użyteczną informacją jest bardzo rzadkie). Podobny problem wystąpił w komercyjnym Internecie: jak wyszukać efektywnie informacji w sieci; jak sobie odbić to kosztem reklam. Zajęto się tematem indeksowania stron www (chodziło aby zawęzić ilość pokazywanych stron). Pojawiły się firmy wyszukiwarki: Alta-Vista (DEC z ludzmi Computer Science Lab of XEROX PARC któych przyciągnął do biznesu Bob Taylor, indeks towrzył program lingwistyczny), potem Yahoo (indeks tworzyli ręcznie ludzie – czytali w interneci), na sam konic Excite (podobnie jak Alta-Vista, tym razem program tworzył wielowymiarowy wektor wyszukanych stron. Każdy punkt przestrzeni to słowo kluczowe z wyszukiwanej frazy – genialny pomysł Graham Spencera). Powstanie Google dało nowy algorytm oparty o PageRank i tani sprzęt serwerowy sklecony domowym sposobem (tak tani że w przypadku zepsucia się sprzęt zostaje wyrzucony). Powoli Google zaczął dominować głównie dlatego, ze udało mu się połączyć  wyszukiwanie z reklamą. Kolejny problem Google był czysto techniczny – jak spiąć ze sobą tani sprzęt tak aby w działaniu wyglądał jak superkomputer? Sprawa niełatwa ponieważ każde zapytanie angażuje infrastrukturę IT w centrach obliczeniowych Google: 3 mln serwerów odpowiada za interakcję z użytkownikiem, 2 mln przechowuje indeks stron, 3 mln przechowuje same strony. Razem 12 mln serwerów. Podejście do tego problemu zapoczątkowało powstanie i rozwój rynku BIG DATA. Walka Google z Amazon o jak najwyższy  margines zysku spowodowało, że Google zwrócił się do maksymalizacji zysku pochodzącego ze sprzedaży reklam firmom zainteresowanym  w pozyskanie potencjalnego nabywcy swoich produktów. W tym celu Google zaczął także indeksować nie tylko strony ale i ludzi korzystających z wyszukiwarek. Dzięki temu mógł analizować zachowanie oraz przewidywać potrzebu potencjalnych konsumentów. Spowodowało to że zysk z operacji pay-per-click był u niego 10 do 100 razy wyższy od innych wyszukiwarek (ponieważ klienci wyszukiwarek dostawali na liście wyszukiwań wartościowe propozycje)  co spowodowało przyciągniecie do Google coraz więcej firm skłonnych do zapłacenia za prawo wyświetlania swoich reklam na stronach wyszukiwania. Rozwiązanie polegało na trzech pomysłach:

  1. Rozproszony System plikowy – Google File System i wymóg spójności danych po aktualizacji na jednym serwerze
  2. Nierelacyjna baza danych – Big Table z gwarancją spójności podczas aktualizacji
  3. Technologią programistyczną  MapReduce

Google wcale nie krył istoty swego sukcesu. A nawet w roku 2003 opublikował działanie GFS, w 2004 to samo zrobił z MapReduce. Na podstawie – http://betanews.com/2016/07/07/thinking-about-big-data-part-two/

Posted 16 Lipiec 2016 by marekwmsdn in Bez kategorii

Skomentuj

Wprowadź swoje dane lub kliknij jedną z tych ikon, aby się zalogować:

Logo WordPress.com

Komentujesz korzystając z konta WordPress.com. Log Out / Zmień )

Zdjęcie z Twittera

Komentujesz korzystając z konta Twitter. Log Out / Zmień )

Facebook photo

Komentujesz korzystając z konta Facebook. Log Out / Zmień )

Google+ photo

Komentujesz korzystając z konta Google+. Log Out / Zmień )

Connecting to %s

%d bloggers like this: