Na myśl o proteinach, zwykle przychodzą nam do głowy produkty bogate w białko, takie jak stek czy tofu. Ale białka to znacznie bardziej obszerny temat. Są niezbędne do funkcjonowania i rozwoju organizmów żywych, a ich analizowanie może pomóc w poprawie jakości życia. Na przykład terapia insulinowa, która bazuje na latach badań nad białkami, zmienia życie osób chorych na cukrzycę. 

Jeśli chodzi o białka, wiele jeszcze o nich nie wiemy. Zdobyte informacje moglibyśmy wykorzystać do pomocy ludziom w otrzymaniu niezbędnej opieki zdrowotnej, a także do znalezienia sposobów ochrony gatunków roślin. Nasze zespoły koncentrują się na badaniu białek, by realizować misję Google Health, która polega na pomaganiu miliardom ludzi w dbaniu o zdrowie. 

W marcu opublikowaliśmy post o opracowanym przez Google modelu, który przewiduje funkcje białek. Udostępniliśmy też narzędzie, dzięki któremu naukowcy mogą korzystać z tego modelu. Od tego czasu zespół zajmujący się badaniem funkcji białek jeszcze bardziej zgłębił temat. 

Rozmawiam dziś z inżynierem oprogramowania Maxem Bileschim, aby dowiedzieć się więcej o badaniu białek i działaniach Google. 


Co powinniśmy wiedzieć o białkach? 

Białka decydują o tym, co dzieje się w nas i wokół nas, na przykład o tym, jak funkcjonują ludzie i inne organizmy. 

Ich działanie zależy od 2 czynników: wzoru chemicznego i środowiska. Wiemy na przykład, że ludzka hemoglobina, białko we krwi, przenosi tlen do narządów. Wiemy też, że konkretne drobne zmiany we wzorze chemicznym hemoglobiny w ciele mogą doprowadzić do anemii sierpowatej krwinki czerwonej. Ponadto wiemy, że krew zachowuje się inaczej w różnych temperaturach, ponieważ białka reagują inaczej w wyższych temperaturach. 

Dlaczego więc zespół Google zaczął badać białka? 

Możemy przyjrzeć się, jak systemy uczące się przydają się w różnych dziedzinach nauki. Białka są oczywistym wyborem ze względu na niesamowity zakres funkcji, jakie pełnią w naszym organizmie i w otaczającym nas świecie. Istnieje ogromna ilość danych publicznych i chociaż poszczególni badacze przyjrzeli się określonym białkom, wiemy, że to tylko wierzchołek góry lodowej i jest jeszcze wiele do odkrycia w tym temacie. Odpowiada to misji Google, która polega na porządkowaniu informacji oraz udostępnianiu ich do ogólnego użytku. 

Brzmi ciekawie. Opowiedz nam więcej o wykorzystaniu systemów uczących się do identyfikowania funkcji białek i ulepszania status quo. 

W warunkach laboratoryjnych zbadano tylko około 1% białek. Chcemy zobaczyć, jak dzięki systemom uczącym się możemy poznać pozostałe 99%. To nie jest łatwe. Na świecie istnieje co najmniej miliard białek, które ewoluowały i zostały ukształtowane przez te same siły doboru naturalnego, o których myślimy w kontekście DNA. Warto przyjrzeć się ewolucyjnemu pokrewieństwu między białkami. Obecność podobnego białka w co najmniej dwóch odlegle spokrewnionych organizmach (np. ludzi i danio pręgowanego) może wskazywać, że jest ono potrzebne do przetrwania. Białka, które są blisko spokrewnione, mogą pełnić podobne funkcje, ale z niewielkimi różnicami, takimi jak wywoływanie tej samej reakcji chemicznej, ale w różnych temperaturach. Czasami łatwo jest ustalić, że dwa białka są ze sobą spokrewnione, jednak nie zawsze tak jest. To pierwszy problem związany z adnotacją funkcji białek, z którym uporaliśmy się dzięki systemom uczącym się. 

Systemy uczące się sprawdzają się najlepiej, gdy rzeczywiście usprawniają, a nie zastępują obecne techniki. Wykazaliśmy na przykład, że 300 niescharakteryzowanych wcześniej białek jest spokrewnionych z białkami kapsydu bakteriofaga. Te białka kapsydu mogą pomóc w dostarczaniu leków do komórek, które ich naprawdę potrzebują. Aby potwierdzić naszą hipotezę, wykorzystaliśmy zaufaną bazę danych białek, Pfam. Teraz te białka są wymienione jako spokrewnione z białkami kapsydu bakteriofaga i wszyscy, w tym naukowcy, mają dostęp do tych informacji. 

Wróćmy do jednej kwestii. Czy możesz wyjaśnić, czym jest baza danych rodziny białek Pfam? W jaki sposób Wasz zespół przyczynił się do rozwoju tej bazy danych? 

Przez dziesiątki lat społeczność naukowców stworzyła wiele narzędzi i baz danych, aby pomóc sklasyfikować funkcję każdego białka. Pfam jest jedną z najczęściej używanych baz danych i klasyfikuje białka na około 20 tysięcy rodzajów. 

Klasyfikacja białek wymaga zarówno modeli komputerowych, jak i ekspertów, którzy sprawdzają i ulepszają te modele. Wykorzystaliśmy systemy uczące się, aby dodać klasyfikacje białek ludzkich, których brakowało w bazie Pfam – pomogliśmy tym samym w rozbudowie tej bazy, skracając ten proces o kilka lat. 

Czym zajmował się Wasz zespół od czasu publikacji artykułu „Using deep learning to annotate the protein universe” (Opisywanie białek za pomocą modeli opartych na algorytmach deep learning) w czerwcu? 

Skupiamy się na identyfikacji większej liczby białek i dzieleniu się tą wiedzą ze społecznością naukową i badawczą. Wkrótce udostępnimy dane Pfam i MGnify, czyli innej bazy danych, która zawiera informacje dotyczące mikrobiomu, w Google Cloud Platform, aby więcej osób miało do nich dostęp. Jeszcze w tym roku podejmiemy współpracę z UniProt, czyli wiodącą bazą danych w naszej dziedzinie, aby nazwać niescharakteryzowane białka w tej bazie za pomocą modeli językowych. Jesteśmy podekscytowani naszymi postępami i tym, jak udostępnianie tych danych może pomóc w rozwiązywaniu trudnych problemów.