Ключ ко всем знаниям человечества: айтишники собрали базу из 107 млн научных статей

код, строка кода, информация
Фото: datalumen.eu

Набор ключевых слов и фраз объемом 38 Тб помогает быстро найти нужную информацию, чтобы сэкономить время студентам, журналистам, ученым и обычным читателям.

Программисты создали бесплатную базу данных The General Index для поиска научных статей по ключевым словам и фразам.

Об этом проекте стало известно изданию Vice.

Команда извлекла ключи из более чем 107 млн научных статей и собрала их архив, общий размер которого составил 38 Тб (8,5 Тб в сжатом виде). По словам соавтора проекта Карла Маламуда, этот инструмент поможет людям быстро находить исследования или их фрагменты по конкретным темам, вводя максимально релевантные слова, фразы или анаграммы. Иначе говоря, больше не нужно листать весь документ, чтобы изучить информацию об интересующих вещах.

"Мы рассматриваем это как общественный инструмент. Мы не утверждаем, что владеем общим индексом. Он посвящен общественному достоянию. Серия необременительных фактов, с которыми вы можете делать то, что хотите. Права не защищены", — подчеркнул Карл Маламуд.

Коллекция является своеобразной картой к научным знаниям, которая способна значительно ускорить человеческий прогресс, уверены ее создатели. Базу данных можно бесплатно скачать напрямую с сайта archive.org, однако процесс займет очень много времени из-за большого объема файлов. Пользователи Reddit загрузили данные на удаленный сервер и распространяют их через сервис BitTorrent. Любой желающий может поддержать проект и стать "сидером", чтобы ускорить скорость скачивания для других пользователей.

Карл Маламуд подчеркнул, что пока пользователям доступна лишь ранняя версия General Index — программисты продолжают работать над проектом, которому уже отдали несколько лет жизни. Иногда попытки извлечь текст из статей проваливались, иногда метаданные оказывались неправильными или недоступными.

Cтоит отметить, что за доступ непосредственно к статьям придется заплатить, например, оформить подписку на один из журналов онлайн. Работы защищены авторским правом, поэтому их распространение считается нарушением закона — пиратством. Власти нескольких стран уже давно пытаются закрыть портал Sci-Hub, на котором незаконно размещают статьи, а недавно Карла Маламуда и вовсе обвиняли в терроризме. Власти Джорджии подали судебный иск против разработчика после того, как он опубликовал в отрытом доступе все законы штата. Маламуд выиграл дело в Верховном суде США.

"Наука — это язык, на котором мы все должны говорить, если мы хотим улучшить наш мир", — отметил он в комментарии Vice.

Ранее стало известно, что в Сеть слили базу с данными почти 53 млн жителей Украины. В ней содержатся имена, номера телефонов и адреса проживания граждан, которые авторы предлагают использовать для поиска родственников, друзей и близких.

Писали также, что медицинский журнал отозвал научную статью о вреде курения во время пандемии. Ученые написали, что вредная привычка якобы помогает избежать заражения Covid-19, однако редакция обнаружила у одного из авторов финансовые связи с табачной компанией.