Ключ до всіх знань людства: айтішники зібрали базу зі 107 млн наукових статей

код, рядок коду, інформація
Фото: datalumen.eu

Набір ключових слів і фраз об'ємом 38 Тб допомагає швидко знайти потрібну інформацію, щоб заощадити час студентам, журналістам, науковцям і звичайним читачам.

Програмісти створили безкоштовну базу даних The General Index для пошуку наукових статей за ключовими словами і фразами.

Про цей проєкт стало відомо виданню Vice.

Команда отримала ключі з понад 107 млн наукових статей і зібрала їхній архів, загальний розмір якого становив 38 Тб (8,5 Тб у стислому вигляді). За словами співавтора проєкту Карла Маламуда, цей інструмент допоможе людям швидко знаходити дослідження або їхні фрагменти з конкретних тем, вводячи максимально релевантні слова, фрази або анаграми. Інакше кажучи, більше не потрібно гортати весь документ, щоб вивчити інформацію про цікаві речі.

"Ми розглядаємо це як громадський інструмент. Ми не стверджуємо, що володіємо загальним індексом. Він присвячений суспільному надбанню. Серія необтяжливих фактів, з якими ви можете робити те, що захочете. Права не захищені", — підкреслив Карл Маламуд.

Колекція є своєрідною картою до наукових знань, яка здатна значно прискорити людський прогрес, впевнені її творці. Базу даних можна безкоштовно завантажити безпосередньо із сайту archive.org, однак процес займе дуже багато часу через великий обсяг файлів. Користувачі Reddit завантажили дані на віддалений сервер і поширюють їх через сервіс BitTorrent. Будь-який охочий може підтримати проєкт і стати "сідером", щоб прискорити швидкість завантаження для інших користувачів.

Карл Маламуд підкреслив, що поки користувачам доступна лише рання версія General Index — програмісти продовжують працювати над проєктом, якому вже віддали кілька років життя. Іноді спроби витягти текст зі статей провалювалися, іноді метадані виявлялися неправильними або недоступними.

Варто зазначити, що за доступ безпосередньо до статей доведеться заплатити, наприклад, оформити підписку на один з журналів онлайн. Роботи захищені авторським правом, тому їхнє поширення вважається порушенням закону — піратством. Влада кількох країн уже давно намагається закрити портал Sci-Hub, на якому незаконно розміщують статті, а нещодавно Карла Маламуда і зовсім звинувачували в тероризмі. Влада Джорджії подала судовий позов проти розробника після того, як він опублікував у відритому доступі всі закони штату. Маламуд виграв справу у Верховному суді США.

"Наука — це мова, якою ми всі повинні говорити, якщо ми хочемо поліпшити наш світ", — зазначив він у коментарі Vice.

Раніше стало відомо, що в мережу злили базу з даними майже 53 млн жителів України. У ній містяться імена, номери телефонів і адреси проживання громадян, які автори пропонують використовувати для пошуку родичів, друзів і близьких.

Писали також, що медичний журнал відкликав наукову статтю про шкоду куріння під час пандемії. Учені написали, що шкідлива звичка нібито допомагає уникнути зараження Covid-19, проте редакція виявила в одного з авторів фінансові зв'язки з тютюновою компанією.