Розділи
Матеріали

Тепер вивчати їх ще легше. Нове дослідження показує, що граматика різних мов дещо схожа

Фото: IFJ PAN | Нещодавній статистичний аналіз показує, що пунктуація — це не просто необхідне зло в мові, а універсальне доповнення до її математичної досконалості

Нещодавній статистичний аналіз показує, що пунктуація — це не просто необхідне зло в мові, а універсальне доповнення до її математичної досконалості.

Роль пунктуації в літературі може здатися тривіальною, але її статистичні особливості далеко не несуттєві, згідно з дослідженням Інституту ядерної фізики Польської академії наук. Насправді її особливості зовсім не тривіальні і, здається, "виростають" з основ, спільних для всіх (досліджуваних) мов, пише Phys.org.

У Фокус.Технології з'явився свій Telegram-канал. Підписуйтесь, щоб не пропускати найсвіжіші та найцікавіші новини зі світу науки!

Роль самих лише ком, знаків оклику чи крапок може здатися несуттєвою, але ті самі статистичні особливості вживання розділових знаків спостерігаються в кількох сотнях творів, написаних сімома, переважно західними, мовами.

"Цей аналіз є продовженням наших попередніх результатів щодо мультифрактальних особливостей варіювання довжини речень у творах світової літератури. Зрештою, що таке довжина речення? Це не що інше, як відстань до наступного специфічного розділового знаку — крапки. Тож тепер ми взяли всі розділові знаки під статистичну лупу, а також подивилися, що відбувається з ними під час перекладу", — розповідає професор Станіслав Дроздз (IFJ PAN).

У дослідженні використали два набори текстів. Перший набір складався з 240 популярних літературних творів, написаних англійською (44), німецькою (34), французькою (32), італійською (32), іспанською (32), польською (34) та російською (32) мовами.

Відбір мов відбувався за таким критерієм: дослідники виходили з того, що відповідною мовою має розмовляти не менш як 50 мільйонів людей, а твори, написані нею, мають бути відзначені не менше ніж п'ятьма Нобелівськими преміями з літератури.

Кожна книга в наборі мала містити щонайменше 1 500 послідовностей слів, розділених розділовими знаками, щоб забезпечити статистичну правдивість результатів дослідження.

Другий набір текстів підготовлений для спостереження за стабільністю розділових знаків під час перекладу. Він містив 14 творів, всі з яких доступні кожною з досліджуваних мов (дві з 98 мовних версій, однак, пропущені через їхню недоступність).

Загалом авторами обох збірок були такі літературні гіганти, як Конрад, Діккенс, Дойл, Гемінгвей, Кіплінг, Орвелл, Селінджер, Вулф, Ґрасс, Кафка, Манн, Ніцше, Ґете, Лафаєт, Дюма, Гюґо, Пруст, Верн, Сервантес, Сенкевич та інші.

Увагу краківських дослідників насамперед привернув статистичний розподіл відстані між послідовними розділовими знаками. Незабаром з'ясувалося, що в усіх досліджуваних мовах він найкраще описується одним із точно визначених варіантів розподілу Вейбулла.

Крива такого типу має характерну форму: вона спочатку швидко зростає, а потім, після досягнення максимального значення, дещо повільніше спадає до певного критичного значення, нижче якого з невеликою і постійно зменшуваною динамікою досягає нуля.

Розподіл Вейбулла зазвичай використовується для опису явищ виживання (наприклад, залежність чисельності популяції від віку), а також різних фізичних процесів.

"Збіг розподілу довжин послідовностей слів між розділовими знаками з функціональною формою розподілу Вейбулла був тим кращим, чим більше типів розділових знаків ми включали в аналіз; для всіх знаків збіг виявився майже повним. Водночас деякі відмінності в розподілах помітні між різними мовами, але вони зводяться лише до вибору дещо інших значень параметрів розподілу, специфічних для кожної мови, про яку йдеться. Таким чином, пунктуація, здається, є невіддільною частиною всіх досліджуваних мов", — зазначає професор Дроз.

Раніше Фокус розповідав про таємницю чорних плям, яка нажахала дослідників. Реставратори могли пошкодити Атлантичний кодекс Леонардо да Вінчі.