Nowy indeks Google napędzany kafeiną
9 czerwca 2010
To nie żart - dzisiaj ogłaszamy wdrożenie nowego systemu indeksowania sieci o nazwie Caffeine. Jego nowa architektura oznacza, że będziemy dostarczali teraz wyniki wyszukiwania świeższe o 50%. Ponadto, nasz nowy indeks jest największym z tych, jakie dotychczas udostępniliśmy naszym użytkownikom. Dzięki naszej wyszukiwarkowej “kafeinie” będziecie w stanie znaleźć materiały opublikowane w sieci o wiele wcześniej niż przedtem.
Dla tych z Was, którzy są trochę mniej zorientowani w budowie wyszukiwarek internetowych, odrobina kontekstu: kiedy wyszukujecie coś za pomocą Google, nie przeszukujecie sieci na żywo. Zamiast tego przeglądacie nasz indeks witryn, który podobnie do indeksu na końcu książek, pozwala Wam znaleźć poszukiwane informacje.
Dlaczego więc stworzyliśmy nowy system indeksowania sieci? Internet rośnie z każdą minutą - nie tylko pod względem wielkości i liczb, ale również formatów i kanałów - dzięki materiałom wideo, obrazom i publikowaniu w czasie rzeczywistym. Wszystkie te nowinki wzbogacają wiele ważnych i popularnych stron internetowych. Wy, nasi użytkownicy, macie o wiele wyższe wymagania niż dotychczas - chcecie znajdować najświeższe i najbardziej adekwatne wyniki. Po drugiej stronie sieci, osoby zamieszczające materiały w sieci chcą by były one widoczne w naszych wynikach tuż po ich opublikowaniu.
By dotrzymać tempa rozwoju sieci i zapewnić naszym użytkownikom najlepsze wyniki wyszukiwania potrzebowaliśmy czegoś nowego - tak powstał indeks Caffeine. Poniższy rysunek wyjaśnia różnicę pomiędzy bezkafeinowym i kafeinowym indeksem:

Nasz dotychczasowy indeks miał kilka warstw, odświeżanych z różną częstotliwością - główna z nich przechodziła ten cykl co kilka tygodni. Aby odświeżyć warstwę starego indeksu, dokonywaliśmy analizy całej sieci, co oznaczało poważne różnice czasowe pomiędzy znalezieniem nowej wersji strony a udostępnieniem jej naszym użytkownikom.
Dzięki Caffeine jesteśmy w stanie analizować sieć w małych porcjach i aktualizować nasz indeks wyszukiwania globalnie i bez przerwy. Po znalezieniu nowej strony lub nowszej wersji już istniejącej witryny, możemy te informacje dodać bezpośrednio do indeksu. Oznacza to, że znajdziecie w nim dane świeższe niż kiedykolwiek przedtem - niezależnie od miejsca lub daty ich opublikowania w internecie.
Caffeine pozwala nam indeksować o wiele więcej stron internetowych w krótkim okresie czasu. Co sekundę przerabia on setki tysięcy stron jednocześnie. Jeśli wyobrazicie sobie nowy indeks jako stertę papierów, co sekundę rosłaby ona o prawie pięć kilometrów. Caffeine zajmuje prawie 100 milionów gigabajtów w jednej bazie danych i rośnie o setki tysięcy gigabajtów dziennie. By przechować tyle danych, potrzebowalibyście 625 tysięcy najpojemniejszych iPodów, które poustawiane jeden obok drugiego utworzyłyby ciąg o długości prawie 65 kilometrów.
Stworzyliśmy Caffeine myśląc o przyszłości. To nie tylko odświeżenie indeksu - to trwała podstawa pozwalająca nam tworzyć jeszcze szybsze i sprawniejsze wersje wyszukiwarki, ewoluujące wraz z rosnącą ilością informacje w sieci i dostarczające Wam jeszcze lepsze wyniki. Trzymajcie rękę na pulsie - nadchodzące miesiące przyniosą jeszcze więcej nowinek.
Dla tych z Was, którzy są trochę mniej zorientowani w budowie wyszukiwarek internetowych, odrobina kontekstu: kiedy wyszukujecie coś za pomocą Google, nie przeszukujecie sieci na żywo. Zamiast tego przeglądacie nasz indeks witryn, który podobnie do indeksu na końcu książek, pozwala Wam znaleźć poszukiwane informacje.
Dlaczego więc stworzyliśmy nowy system indeksowania sieci? Internet rośnie z każdą minutą - nie tylko pod względem wielkości i liczb, ale również formatów i kanałów - dzięki materiałom wideo, obrazom i publikowaniu w czasie rzeczywistym. Wszystkie te nowinki wzbogacają wiele ważnych i popularnych stron internetowych. Wy, nasi użytkownicy, macie o wiele wyższe wymagania niż dotychczas - chcecie znajdować najświeższe i najbardziej adekwatne wyniki. Po drugiej stronie sieci, osoby zamieszczające materiały w sieci chcą by były one widoczne w naszych wynikach tuż po ich opublikowaniu.
By dotrzymać tempa rozwoju sieci i zapewnić naszym użytkownikom najlepsze wyniki wyszukiwania potrzebowaliśmy czegoś nowego - tak powstał indeks Caffeine. Poniższy rysunek wyjaśnia różnicę pomiędzy bezkafeinowym i kafeinowym indeksem:

Nasz dotychczasowy indeks miał kilka warstw, odświeżanych z różną częstotliwością - główna z nich przechodziła ten cykl co kilka tygodni. Aby odświeżyć warstwę starego indeksu, dokonywaliśmy analizy całej sieci, co oznaczało poważne różnice czasowe pomiędzy znalezieniem nowej wersji strony a udostępnieniem jej naszym użytkownikom.
Dzięki Caffeine jesteśmy w stanie analizować sieć w małych porcjach i aktualizować nasz indeks wyszukiwania globalnie i bez przerwy. Po znalezieniu nowej strony lub nowszej wersji już istniejącej witryny, możemy te informacje dodać bezpośrednio do indeksu. Oznacza to, że znajdziecie w nim dane świeższe niż kiedykolwiek przedtem - niezależnie od miejsca lub daty ich opublikowania w internecie.
Caffeine pozwala nam indeksować o wiele więcej stron internetowych w krótkim okresie czasu. Co sekundę przerabia on setki tysięcy stron jednocześnie. Jeśli wyobrazicie sobie nowy indeks jako stertę papierów, co sekundę rosłaby ona o prawie pięć kilometrów. Caffeine zajmuje prawie 100 milionów gigabajtów w jednej bazie danych i rośnie o setki tysięcy gigabajtów dziennie. By przechować tyle danych, potrzebowalibyście 625 tysięcy najpojemniejszych iPodów, które poustawiane jeden obok drugiego utworzyłyby ciąg o długości prawie 65 kilometrów.
Stworzyliśmy Caffeine myśląc o przyszłości. To nie tylko odświeżenie indeksu - to trwała podstawa pozwalająca nam tworzyć jeszcze szybsze i sprawniejsze wersje wyszukiwarki, ewoluujące wraz z rosnącą ilością informacje w sieci i dostarczające Wam jeszcze lepsze wyniki. Trzymajcie rękę na pulsie - nadchodzące miesiące przyniosą jeszcze więcej nowinek.