Глава 6 ЗВУКИ ТИШИНЫ[72] Речь и звуки, из которых она складывается

We use cookies. Read the Privacy and Cookie Policy

Глава 6

ЗВУКИ ТИШИНЫ[72]

Речь и звуки, из которых она складывается

В студенческие годы я работал в лаборатории университета Мак-Джилл, где изучалось восприятие речи на слух. Используя компьютер, я синтезировал цепочки накладывающихся друг на друга тонов и определял, звучат ли они как один смешанный звук или как два чистых. Как-то утром в понедельник случилось странное: тоны вдруг превратились в хор вопящих жевунов[73]. Вот так:

(биип-бууп-бууп) (биип-бууп-бууп) (биип бууп-бууп) ХАМПТИ-ДАМПТИ[74]-ХАМПТИ-ДАМПТИ-ХАМПТИ-ДАМПТИ-(биип-бууп-бууп) (биип бууп-бууп) ХАМПТИ-ДАМПТИ-ХАМПТИ-ДАМПТИ-ХАМПТИ-ДАМПТИ-ХАМПТИ-ДАМПТИ-(биип бууп-бууп) (биип бууп-бууп) (биип бууп-бууп) ХАМПТИ-ДАМПТИ-(биип бууп-бууп) ХАМПТИ-ДАМПТИ (биип бууп-бууп).

Я проверил осциллоскоп — два потока тонов, как и запрограммировано. Должно быть, это эффект восприятия. Сделав небольшое усилие, я мог услышать этот звук или как биипы или как крики жевунов. Когда ко мне зашла знакомая студентка, я рассказал ей о своем открытии, упомянув, что я жду не дождусь, чтобы рассказать об этом профессору Брегману, который заведовал лабораторией. Студентка дала мне хороший совет: не рассказывать никому, кроме, может быть, профессора Позера (который возглавлял психопатологическую программу).

Годы спустя я, наконец, открыл, в чем состояло мое открытие. Психологи Роберт Ремез, Дэвид Пизони и их коллеги, более смелые, чем я, опубликовали в журнале «Сайенс» статью о «речи синусоидной волны» («sine-wave speech»). Они синтезировали три тона с синхронными колебаниями. С физической точки зрения, звук ничем не напоминал речь, но тоны соответствовали тем же очертаниям, что и дорожки магнито-записи предложения Where were you a year ago? ‘Где ты был год назад?’ Добровольцы описывали услышанное как «фантастические звуки» или «сигналы компьютера». Второй группе добровольцев сказали, что звуки были порождены плохим синтезатором речи. Они смогли разобрать многие слова, а четверть из них смогла точно записать предложение. Мозг может услышать речь в звуках, которые имеют самое отдаленное сходство с речью. И действительно, именно речью синусоидной волны нас дурачит скворец-майна. Сложно устроенный звукопродуцирующий орган птиц, который представляет собой парную систему клапанов на вершине бронхов, способен продуцировать звуки, которые мы воспринимаем как речь.

Наш мозг колеблется между восприятием чего-либо как сигнал компьютера или как слово, потому что фонетическое восприятие напоминает шестое чувство. Когда мы слышим речь, то звуки фактически проникают в одно ухо и выходят из другого; то, что мы в результате этого воспринимаем и есть язык. Наше представление о словах и слогах, сущности звука “b” и сущности звука “ee”, настолько же отличны от представления о высоте тона и громкости, как текст песни от ее музыки. Иногда, как в речи синусоидной волны, слух и фонетика соревнуются друг с другом в том, как следует истолковать звук, и наше восприятие принимает сторону то одного, то другого. Иногда два эти чувства «истолковывают» один и тот же звук синхронно. Если взять запись слога da и с помощью приборов убрать напоминающую чириканье часть, которая отличает da от ga и ka, и проиграть чириканье в одно ухо, а оставшуюся часть — в другое, то люди услышат чириканье в одном ухе и da — в другом. Единый участок звука воспринимается одновременно и как сущность звука d, и как чириканье. А иногда фонетическое восприятие может преодолеть границы слухового канала. Если вы смотрите фильм с английскими субтитрами на языке, который знаете слабо, то через несколько минут можете почувствовать, что действительно понимаете речь. В лаборатории исследователи могут наложить звук речи типа ga на снятое с близкого расстояния очертание губ, произносящих va, ba, ta или da. Зрители буквально слышат тот согласный звук, который, как они видят, произносят губы, — это потрясающая иллюзия с приятным названием «эффект МакГорка», в честь одного из ее первооткрывателей.

На самом деле не нужно никакого электронного колдовства, чтобы создать иллюзию речи. Вся речь — это иллюзия. Мы слышим речь как поток отдельных слов, но в отличие от падения дерева в лесу, где никто не может его услышать, неслышимая граница слова просто беззвучна. В волне звуков речи одно слово набегает на другое без зазоров, и между произносимыми словами нет никаких маленьких промежутков, в отличие от слов на письме. Мы просто воображаем границу слова, когда достигаем конца звукового участка, который соответствует какой-то статье в нашем ментальном словаре. Это становится очевидно, когда мы слушаем речь на иностранном языке: невозможно сказать, где заканчивается одно слово и начинается другое. «Бесшовная» структура речи в явном виде предстает в «оронимах» — линейных последовательностях звуков, которые можно разбить на слова двумя разными способами:

The good can decay many ways ‘Добро может угасать по-разному’.

The good candy came anyways ‘Как бы там ни было, но появились хорошие конфеты’.

The stuffy nose can lead to problems ‘Заложенный нос может привести к проблемам’.

The stuff he knows can lead to problems ‘То, что ему известно, может привести к проблемам’.

Some others I’ve seen ‘Я видел других людей’.

Some mothers I’ve seen ‘Я видел других матерей’.

Оронимы часто используются в песнях и детских стишках:

I scream,

You scream,

We all scream

For ice-cream.

Mairzey doats and

dozey doats

And little lamsey divey,

A kiddley-divey do,

Wouldn’t you?

Fuzzy Wuzzy was a bear,

Fuzzy Wuzzy had no hair.

Fuzzy Wuzzy wasn’t fuzzy,

Was he?

In fir tar is,

In oak none is.

In mud eel is,

In clay none is.

Goats eat ivy.

Mares eat oats.

Некоторые оронимы были случайно обнаружены преподавателями, читавшими курсовые работы и домашние задания студентов:

Jose can you see by the donzerly light? [Oh say can you see by the dawn’s early light?] ‘Хосе, можешь ли ты видеть при свете розмарин? [О, скажи, можешь ли ты видеть при свете ранней зари?]’

It’s a doggy-dog world. [Dog-eat-dog] ‘Это мир собачек. [Это мир с волчьими законами.]’

Eugene O’Neil won a Pullet Surprise. [Pulitzer Prize] ‘Юджин О’Нил выиграл куриный сюрприз. [Юджин О’Нил получил Пулицеровскую премию.]’

My mother comes from Pencil Vanea. [Pennsylvania] ‘Моя мама родом из Карандашной Вании. [Моя мама родом из Пенсильвании.]’

He was a notor republic. [notary public] ‘Он был печально известной республикой. [Он был нотариусом.]’

They played the Bohemian Rap City. [Bohemian Rhapsody] ‘Они играли богемский город в стиле рэп. [Они играли Богемскую рапсодию.]’

Даже последовательность звуков, которые, как нам кажется, мы слышим в слове, является иллюзией. Если разрезать магнитофонную пленку с записью произнесенного слова cat [k?t] ‘кошка’, то в результате нельзя получить отрывки, которые звучали бы как k, a и t (как единицы, называемые «фонемами», которые приблизительно соответствуют буквам алфавита). А если соединить отрывки в обратном порядке, то результатом будет не tack [t?k], а нечто, не поддающееся пониманию. Как мы увидим далее, информация о каждом компоненте слова распространяется на слово целиком.

Восприятие речи — это еще одно биологическое чудодейство, составляющее языковой инстинкт. В использовании рта и ушей как каналов коммуникации есть очевидные преимущества, и мы не найдем ни одно сообщество обладающих слухом людей, которое предпочло бы жестовый язык, хотя он точно так же выразителен. Речь не требует хорошего освещения, видения лица собеседника или полного задействования рук и глаз; слова можно прокричать издалека или прошептать, чтобы сказанное осталось втайне. Но, чтобы воспользоваться преимуществами звуковой передачи информации, речь должна преодолеть ту проблему, что ухо — это узкий информационный канал. Когда в 40-х годах инженеры впервые пытались изобрести читающие машины для слепых, они создали набор шумов, которые соответствовали буквам алфавита. Даже после усиленной тренировки люди не могли различать эти звуки быстрее, чем хорошие операторы азбуки Морзе, — три единицы в секунду. Живая речь почему-то воспринимается на порядок быстрее: от десяти до пятнадцати фонем в секунду при восприятии обычной речи, от двадцати до тридцати в секунду при прослушивании рекламы, идущей в вечерние часы, и до сорока — пятидесяти в секунду при искусственно ускоренной речи. Учитывая то, как работает человеческая система восприятия речи на слух, в это трудно поверить. Когда какой-либо звук, например, щелчок, повторяется со скоростью двадцать раз в секунду или быстрее, мы слышим его уже не как последовательность отдельных звуков, но как тихий шум. Если мы слышим сорок пять фонем в секунду, то фонемы вряд ли могут быть последовательностью отдельных звуков; должно быть, несколько фонем «упаковано» в каждом моменте звучания речи, а наш мозг каким-то образом «распаковывает» их. В результате речь — это самый быстрый способ получить информацию с помощью слуха.

Ни одна изобретенная человеком система не может сравниться с самим человеком в расшифровке речи. И не потому, что в такой системе нет необходимости, или, что в ее разработку не вкладывалось много усилий. Распознаватель речи был бы незаменим для слепых и других инвалидов, для профессионалов, которым нужно внести информацию в компьютер, в то время, когда заняты их руки или глаза, для тех, кто не научился печатать на машинке, для тех, кто пользуется телефонными услугами и для растущего числа машинисток, которые становятся жертвами синдрома повторяющихся движений. Поэтому не удивительно, что инженеры уже более сорока лет бьются над тем, чтобы заставить компьютер распознавать звучащее слово. Но им пришлось встать перед выбором: или, или. Если от системы требуется выслушивать большое количество людей, она может распознавать только очень небольшое количество слов. Например, телефонные компании начинают устанавливать вспомогательные справочные системы, которые могут распознать слово «да», сказанное любым человеком, или (для более продвинутых систем) названия десяти цифр, произносимых на английском языке, которые, к счастью для инженеров, звучат совершенно по-разному. Но если от системы требуется распознавать большое количество слов, то она должна быть приспособлена к голосу одного и того же говорящего. Ни одна система на сегодняшний день не может продублировать человеческую способность распознавать много слов и многих говорящих. Возможно, наивысшим достижением является система DragonDictate, написанная для персонального компьютера и способная распознавать 30 000 слов. Но у нее есть несколько ограничений. Ее нужно долго приспосабливать к голосу пользователя. С… ней… нужно… разговаривать… так — с паузами в четверть секунды между словами (таким образом, она действует на одной пятой скорости обычной речи). Если нужно использовать слово, которого нет в словаре, например, имя, то придется проговорить его по буквам, пользуясь специальной азбукой «Alpha, Bravo, Charlie»[75]. И тем не менее, приблизительно в пятнадцати процентах случаев программа путает слова — наблюдается более, чем одно перепутанное слово на предложение. Этот замечательный программный продукт не может сравниться даже с посредственной стенографисткой.

Физический и нейронный механизм речи являются решением двух проблем в строении системы человеческой коммуникации. Человек может знать 60 000 слов, но его речевой аппарат не может издать 60 000 различных шумов, по крайней мере тех, которые можно легко различить на слух. Отсюда следует, что язык снова использует принцип дискретной комбинаторной системы. Предложения и синтаксические группы строятся из слов, слова строятся из морфем, а морфемы, в свою очередь — из фонем. Хотя, в отличие от слов и морфем, фонемы не несут порции информации, из которых складывается целое. Значение слова dog невозможно вывести из значения d, значения o, значения g и порядка их следования. Фонемы — это особый вид лингвистических объектов. Их соединение обращено наружу — к речи, а не внутрь — к мыслекоду: фонема соответствует акту издавания звука. Деление на независимые друг от друга дискретные комбинаторные системы, одна из которых комбинирует незначимые звуки в значимые морфемы, а другая комбинирует значимые морфемы в значимые слова, синтаксические группы и предложения, является основной чертой строения человеческого языка, которую лингвист Чарльз Хоккет назвал «дуализмом структуры».

Но у фонологического модуля языкового инстинкта имеются и иные задачи помимо проговаривания морфем по буквам. Языковые правила — это дискретные комбинаторные системы: фонемы четко заскакивают в морфемы, морфемы — в слова, слова — в синтаксические группы. Они не смешиваются, не сливаются и не путают высказывание: Dog bites man ‘Собака кусает человека’ с Man bites dog ‘Человек кусает собаку’, а вера в God ‘Бога’ отличается от веры в Dog ‘Собаку’. Но чтобы переместить эти структуры из головы одного человека в голову другого, эти правила нужно преобразовать в слышимые сигналы. Слышимые сигналы, которые могут быть продуцированы людьми, это не то же самое, что отрывистые гудки на телефоне с кнопочным набором. Речь — это поток дыхания, изгибающийся то в сторону шипения, то в сторону гудения благодаря мягким тканям ротовой полости и горла. Проблемы, встающие перед Матерью-Природой — это преобразование цифровой записи в аналоговую, когда говорящий зашифровывает цепочки дискретных символов в непрерывный поток звуков, и аналоговой записи — в цифровую, когда слушающий расшифровывает непрерывную речь обратно в дискретные символы.

Таким образом, звуки языка сгруппировываются вместе в несколько этапов. Единицы, отобранные из ограниченного набора фонем ставятся в порядке, необходимом для идентификации слов, а получившиеся в итоге цепочки фонем видоизменяются так, чтобы облегчить произношение и понимание, прежде, чем начинается их артикуляция. Я проведу вас по каждому из этих этапов и покажу, как благодаря им возникают следующие связанные с речью явления: стихи и песни, послышавшиеся звуки, акценты, понимающие речь механизмы и сумасшедшее английское правописание.

* * *

Один из простых путей понять, что же такое звуки речи — это проследить движение объема воздуха по речевому аппарату наружу из легких.

Когда мы говорим, мы изменяем своему обычному ритмичному дыханию и делаем быстрые вдохи, а затем равномерно выпускаем воздух, используя реберные мышцы, чтобы противодействовать силе эластической тяги легких. (Если бы мы этого не делали, наша речь звучала бы как жалобное завывание спускаемого надувного шарика.) Синтаксис берет верх над углекислым газом: мы подавляем функции тонко настроенного узла обратной связи, контролирующего частоту дыхания для регулярности забора кислорода, и вместо этого растягиваем время выдоха до длины высказывания, которое желаем сделать. Это может привести к легкой гипервентиляции или гипоксии; вот почему так изнурительна речь на публике и почему так трудно поддерживать разговор с партнером, бегущим трусцой.

Воздух покидает легкие через трахею (воздушную трубку), которая ведет в гортань (центр голосообразования, который виден снаружи — это кадык, или адамово яблоко). Гортань — это клапан, состоящий из отверстия — голосовой щели — закрытой двумя лоскутами сократимой мышечной ткани, называемой голосовыми складками (они также называются «голосовыми связками» из-за ошибки в ранних анатомических исследованиях; они вовсе не являются связками)[76]. Голосовые связки могут плотно смыкать голосовую щель, «запечатывая» легкие. Это необходимо, когда мы хотим увеличить жесткость верхней части тела, являющейся мягким воздушным резервуаром. Поднимитесь со стула без помощи рук — вы почувствуете, как напрягается гортань. Гортань также перекрывается при осуществлении физиологических функций, таких как кашель или дефекация. Хрип штангиста или игрока в теннис — это напоминание о том, что мы используем один и тот же орган, чтобы запечатывать легкие и продуцировать звуки.

Голосовые связки могут также частично прикрывать голосовую щель, чтобы производить шум при прохождении через них воздуха. Так происходит потому, что проходящий под большим давлением воздух раздвигает голосовые связки до полного открытия, после чего они устремляются назад и смыкаются, перекрывая голосовую щель, пока их снова не раздвинет давление воздуха, начиная новый цикл. Дыхание, таким образом, разбивается на циклы изгнания воздуха, которые мы воспринимаем как шум под названием «звонкость». Этот шум можно услышать и почувствовать, если произнести звук sssssssssss, не обладающий звонкостью, и звук zzzzzzzzz, который ею обладает.

Частота открытия и закрытия голосовых связок обуславливает высоту голоса. Меняя степень напряжения и положение голосовых связок, можно контролировать эту частоту и, таким образом, высоту. Это можно ясно наблюдать во время пения или «мурлыкания» мелодии, но мы также можем постоянно изменять высоту голоса на протяжении предложения — этот процесс называется интонацией. Нормальная интонация — это то, благодаря чему естественная речь звучит отлично от речи роботов в старых научно-фантастических фильмах и от речи «конусоголовых» в «Сэтердей найт лайв». Интонации также уделяется особое внимание в сарказмах, при логическом ударении и тогда, когда тон голоса становится эмоциональным — во время гнева или ликования. В «тональных» языках, таких как китайский, поднимающиеся или падающие тоны являются смыслоразличительным признаком для гласных.

Хотя звонкость и создает звуковую волну с доминирующей частотой вибрации, это не то же самое, что камертон или позывные радиостанции «Имердженси Бродкастинг Систем» — чистый тон с единственной частотой. Звонкость — это интенсивный шум со множеством обертонов. Мужской голос — это волна с вибрациями не только при 100 Гц, но и при 200, 300, 400, 500, 600, 700 Гц и так далее вплоть до 4000 Гц и больше. Женский голос вибрирует при 200, 400, 600 Гц и так далее. Интенсивность источника звука имеет решающее значение — это то сырье, из которого остальная часть голосового тракта формирует гласные и согласные.

Если по каким-то причинам мы не можем издавать шум гортанью, подойдет любой интенсивный источник звука. Когда мы шепчем, мы раздвигаем голосовые связки, заставляя поток воздуха хаотически разбиваться об их выступы и создавая турбулентность или шум, который звучит как шипение или радио-помехи. Шипящий шум — это не с определенной периодичностью повторяющаяся волна, состоящая из последовательности обертонов, которую мы встречаем в обладающем периодичностью звуке человеческого голоса, но неровная зазубренная волна, состоящая из мешанины постоянно изменяющихся частот. Тем не менее этой мешанины достаточно остальному голосовому тракту для продуцирования внятного шепота. Некоторые пациенты, перенесшие ларинготомию, учатся чревовещанию, или управляемому рычанию, которое обеспечивает необходимый шум. Другие помещают на шею вибратор. В 1970 г. гитарист Питер Фрэмптон пропустил усиленный звук своей электрогитары через трубку себе в рот, что позволило ему во время выступления выправлять свою гнусавость. Благодаря этому эффекту он записал пару хитов, прежде чем погрузиться в рок-н-ролльное забвение.

Затем, прежде чем покинуть голову, интенсивно вибрирующий воздух проходит через анфиладу полостей: горло, или «фаринкс», находящееся позади языка, область рта между языком и нёбом, отверстие между губами и альтернативный путь во внешний мир через нос. Каждая полость имеет определенную длину и форму, которые влияют на проходящий звук посредством явления под названием «резонанс». У звуков разных частот разная длина волны (расстояние между соседними гребнями звуковой волны); у высоких звуков длина волны короче. Звуковая волна, идущая по трубе, отражается назад, достигнув отверстия на другом конце. Если длина трубы кратна длине звуковой волны, то каждая отраженная волна усиливает идущую за ней; если же она не кратна длине волны, то они гасят друг друга. (Это сходно с тем, как можно достичь наилучшего эффекта, раскачивая ребенка на качелях — нужно синхронизировать каждый толчок с самым высоким положением качелей.) Отсюда следует, что труба определенной длины «отфильтровывает» звуковые частоты, усиливая одни и гася другие. Этот эффект можно наблюдать во время наполнения жидкостью бутылки. Шум падающей воды изменяется воздушной прослойкой между входным отверстием и донышком: чем больше воды, тем меньше прослойка, тем выше резонансная частота этой прослойки, и тем более высокий, металлический звук у булькания.

То что мы слышим как различные гласные звуки — это различные комбинации усиления и гашения звука, идущего из гортани. Эти комбинации порождаются изменением положения пяти органов речи в ротовой полости, благодаря чему резонансные полости, по которым проходит звук, изменяют форму и длину. Например, звук, обозначаемый буквами ee [i:] определяют два резонанса, один — от 200 до 350 Гц, порождаемый в основном полостью рта, а другой — от 2100 до 3000 Гц, порождаемый в основном горловой полостью. Диапазон частот, которые отфильтровываются той или иной полостью, не зависит от определенной смеси частот, которые в эту полость попадают; поэтому мы слышим ee как ee вне зависимости от того, произносят ли этот звук достаточно громко, шепчут, пропевают на высокой ноте, пропевают на низкой ноте, произносят рыча или произносят гнусаво.

Язык (tongue) — это наиболее важный орган речи; благодаря ему язык (language) поистине является «даром языков» (tongues). На самом деле, язык является тремя органами речи в одном: корпус языка, его кончик и корень (мускулы, которыми он крепится к челюсти). Произнесите несколько раз подряд гласные в словах bet [e] и butt [?] — e-uh e-uh e-uh. Вы почувствуете, как корпус языка двигается вперед и назад (если вы поместите палец между зубами, то это можно почувствовать пальцем). Когда язык находится в передней части рта, он удлиняет полость позади себя — в горле — и укорачивает ротовую полость перед собой, изменяя резонансы: для гласного в слове bet рот усиливает звуки до приблизительно 600 и 1800 Гц; для гласного в слове butt он усиливает звуки около 600 и 1200 Гц. Теперь произнесите по очереди гласные звуки в словах beet [i:] и bat [?]. Корпус языка запрыгает вверх и вниз под прямым углом к движению bet-butt, можно даже почувствовать, как, помогая произношению, движется челюсть. Это также изменяет форму горловой и ротовой полости и, соответственно, их резонансы. Мозг воспринимает разные варианты усиления и гашения звука как разные гласные.

Связь между положением языка и разными гласными звуками, которые он образовывает, порождает одну своеобразную особенность английского и многих других языков, носящую название фонетического символизма. Когда язык находится в переднем положении в верхней части рта, он создает там маленькую резонансную полость, которая усиливает некоторые высокие частоты, и получающиеся в результате звуки, например, выражаемые буквами ee [i:] и i [?] (как в слове bit) вызывают у людей ассоциацию с маленькими вещами. Когда язык находится в нижнем положении и оттянут назад, он создает большую резонансную полость, которая усиливает некоторые низкие частоты, и получающиеся гласные звуки, такие как a [??] в слове father и o в словах core [??] или cot [?] ассоциируются с чем-то большим. Поэтому мыши мали-усенькие (teeny [i?]) и издают писк (squeak [i?]), а слоны огромные (humongous [??]) и ревут (roar [??]). В аудио-колонках есть маленькие tweeters [i?] («пищалки») для высоких частот и большие woofers [u?] (басовики) для низких. Носители английского языка правильно догадываются, что в китайском ch’ing [чинг] означает ‘легкий’, a ch’ung [чанг] ‘тяжелый’. (В контрольных исследованиях на большом количестве иностранных слов уровень правильных догадок статистически выше, чем по теории вероятности, хотя и не намного.) Когда я допрашивал нашу местную компьютерную чародейку, что она имела в виду, когда сказала, что собирается произвести действие frob моей рабочей установкой, она провела для меня краткий обзор хакерского жаргона. Когда вы присоединяете новый графический эквалайзер к вашему стерео и бесцельно двигаете вверх и вниз рычажки, чтобы послушать, какой от этого будет эффект, это называется frobbing. Когда вы устанавливаете рычажки в среднее положение, чтобы достичь желаемого качества звука, — это называется twiddling. Когда вы делаете последние маленькие поправки, чтобы добиться идеала, это называется tweaking. Гласные звуки в -ob, -id и -eak идеально соответствуют простирающемуся от малого до большого диапазона фонетического символизма.

И, рискуя уподобиться Энди Руни из передачи «Сиксти минитс»[77], я хочу спросить: вы никогда не задавались вопросом, почему мы говорим fiddle-faddle ‘пустячный’, а не faddle-fiddle? Почему ping-pong ‘пинг-понг’ и pitter-patter ‘топотать’, а не pong-ping и patter-pitter? Почему dribs and drabs ‘обрывки’, а не наоборот? Почему кухня не может быть span and spic (правильно — spic and span — ‘безупречно чистый’). Откуда берут свое начало riff-raff, mish-mash, flim-flam, chit-chat, tit for tat, knick-knack, zig-zag, sing-song, ding-dong, King-Kong, criss-cross, shilly-shally, see-saw, hee-haw, flip-flop, hippity-hop, tick-tock, tic-tac-toe, eeny-meeny-miney-moe, bric-a-brac, clickety-clack, hickory-dickory-dock, kit and kaboodle и bibbity-bobbity-boo? Ответ такой: слова с гласными звуками, образованными при переднем и верхнем положении языка, всегда предшествуют словам с гласными, образованными при нижнем положении языка, когда последний оттянут назад. Никто не знает, почему порядок именно таков, но, похоже, это является следствием двух других странных явлений. Первое состоит в том, что слова, связанные с понятиями «me-here-now» («я-здесь-сейчас»), склонны иметь гласные с более высоким и продвинутым вперед местом образования, чем слова, обозначающие удаленность от нашего «я»: me [mi?] ‘я’ и you [ju?] ‘ты’, here [h??] ‘здесь’ и there [?e?] ‘там’, this [??s] ‘этот’ и that [??t] ‘тот’. Второе явление состоит в том, что слова, связанные с понятиями «я-здесь-сейчас», склонны предшествовать словам, связанным с буквальной или метафорической удаленностью от нашего «я» (или говорящего в обобщенном смысле): here and there ‘здесь и там’, а не there and here ‘там и здесь’, this and that ‘этот и тот’, now and then ‘сейчас и потом’, father and son ‘отец и сын’, man and machine ‘человек и машина’, friend or foe ‘друг или враг’, the Harvard-Yale game ‘матч Гарвард-Иель’ — для студентов Гарварда, the Yale-Harvard game ‘матч Иель — Гарвард’ — для студентов Иельского университета, Serbo-Croatian ‘сербско-хорватский’ — для сербов, Croat-Serbian ‘хорватско-сербский’ — для хорватов. Силлогизм намечается, похоже, следующий: «я» = звук с высоким передним местом образования; я — прежде всего, поэтому звук с высоким передним местом образования ставится перед другими. Создается впечатление, что сознание не может решиться пустить порядок слов на самотек: если он не определяется значением, то за дело принимаются звуки, и логическое обоснование основано на способе образования гласных при помощи языка.

Давайте рассмотрим другие органы речи. Обратите внимание на свои губы, произнося по очереди гласные в словах boot [u?] и book [?]. Произнося boot, вы вытягиваете губы вперед и округляете их. Это добавит полость, обладающую своими собственными резонансами, к передней части голосового тракта, усиливая и гася другие наборы частот и таким образом определяя другие типы противопоставления гласных. Благодаря акустическому эффекту губ мы в буквальном смысле слышим улыбку, когда разговариваем по телефону с радостным человеком.

Помните, как ваша школьная учительница рассказывала вам, что гласные звуки в словах bat [?], bet [e], bit [?], bottle [?] и butt [?] являются «краткими», а звуки в словах bait [e?], beet [i?], bite [a?], boat [??] и boot [u?] являются «долгими»? Тогда вы не понимали, о чем она говорит? Ну и забудьте об этом, ее информация устарела на пять столетий. В древнеанглийском языке существовало смысловое различие звуков по тому, произносились они быстро или их «тянули», что напоминает современное отличие слова bad в значении “bad” ‘плохой’ и baaaad в значении “good” ‘хороший’. Но в пятнадцатом веке английское произношение претерпело катаклизм под названием «Великий сдвиг гласных». Те гласные, которые раньше просто произносились как более долгие, теперь стали «напряженными»: благодаря тому, что корень языка (мускулы, крепящие язык к челюсти) подался вперед, язык стал выгнутым и напряженным, а не плоским и расслабленным, и изгиб языка вверх сузил пространство полости рта над собой, изменяя ее резонансы. Кроме того, некоторые напряженные гласные в современном английском, такие как в словах bite [a?] и brow [a?], стали «дифтонгами» — два звука произносятся в быстрой последовательности так, как если бы они были одним целым: ba-eet, bra-oh[78].

Вы можете ощутить, как действует пятый орган речи, протянув гласные звуки в словах Sam и sat и «смазав» произнесение последнего согласного. В большинстве английских диалектов эти гласные будут разными: звук в слове Sam будет гнусавым, носовым. Это происходит потому, что мягкое нёбо или нёбная занавеска (лоскуток ткани в задней части твердого нёба) поднимается, позволяя воздуху проходить как через рот, так и через нос. Нос — это еще одна резонансная полость, и когда через нее проходит вибрирующий воздух, то отфильтровывается (усиливается или гасится) еще один набор частот. В английском назальность гласных не является смыслоразличительным признаком, но во многих языках, таких как французский, польский или португальский, такое различие присутствует. Про тех носителей английского языка, которые поднимают нёбную занавеску, даже произнося слово sat, говорят, что у них «носовой» голос. Когда вы простужены, и у вас заложен нос, не имеет значения, поднята у вас нёбная занавеска или нет, а ваш голос является противоположностью носовому.

* * *

До сих пор мы обсуждали гласные — звуки, при образовании которых воздух напрямую проходит из гортани наружу. Когда на этом пути появляется какое-либо препятствие, то получается согласный звук. Произнесите ssssss. Кончик вашего языка — шестой орган речи — достигает почти края десен, оставляя маленькую щель. Когда вы заставляете поток воздуха проходить через эту щель, этот поток разбивается на несколько турбулентных потоков, создавая шум. В зависимости от размера щели и длины резонансных полостей перед ней, некоторые частоты в этом шуме будут громче остальных, а верхний уровень и диапазон этих частот и определят тот звук, который мы слышим как s. Шум порождается трением проходящего воздуха, поэтому такие звуки называются фрикативными[79]. Когда стремящийся вперед воздух зажат между спинкой языка и нёбом, мы получаем звук sh [?]; если он зажат между языком и зубами, мы получаем th [?]; если между нижней губой и зубами — то f. Корпус языка или голосовые связки можно также привести в такое положение, чтобы создать турбулентность, определяющую разнообразные «ch» в таких языках, как немецкий, иврит и арабский (Бах, ханука и т.д.).

Теперь произнесите t. Кончик языка встает на пути у воздушного потока, но на этот раз он не только препятствует прохождению воздуха, но совершенно останавливает его. Когда давление нарастает, вы отпускаете кончик языка, позволяя воздуху осуществить прорыв (флейтисты используют это движение, чтобы сделать музыкальное ударение на ноту). Другие «смычные» согласные могут быть образованы губами (p), смычкой между спинкой языка и нёбом (k) и гортанью («глоттальные» согласные в uh-oh). При произнесении смычного звука слышно следующее: вначале ничего, поскольку воздушный поток остановлен смычкой; смычные согласные — это звуки тишины. Затем — короткий выплеск шума в тот момент, когда высвобождается воздух, его частота зависит от величины отверстия и резонансных полостей перед ним. И наконец — плавно меняющийся резонанс — в тот момент, когда затухает звучание, а язык переходит в позицию для образования следующего звука. Как мы увидим, эти броски туда-сюда сильно отравляют жизнь аудиоинженерам.

И наконец, произнесите m. Ваши губы смыкаются совсем как для звука p. Но на этот раз воздух не просто безмолвно отступает назад; можно произносить mmmmm, пока не выбьешься из сил. Это происходит потому, что одновременно у вас поднята нёбная занавеска, позволяющая всему воздуху проходить через нос. Звук усиливается резонансными частотами носа и части рта позади смычки. Размыкание губ вызывает скользящий резонанс, похожий по форме на то, что мы слышали при размыкании смычки для звука p, только без безмолвной паузы, шумового выплеска и затухания. Звук n образуется аналогично m, но только смычка создается кончиком языка, того же органа, который образует смычку для d и s. Так же образуется звук ng [?] в sing, с той разницей, что смычка образуется корпусом языка.

Почему мы говорим razzle-dazzle, а не dazzle-razzle? Почему super-duper, helter-skelter, harum-scarum, hocus-pocus, willy-nilly, hully-gully, roly-poly, holy moly, herky-jerky, walkie-talkie, namby-pamby, mumbo-jumbo, loosey-goosey, wing-ding, wham-bam, hobnob, razza-matazz и rub-a-dub-dub. Я думал, что вы никогда об этом не спросите. Согласные различаются по своей «шумности» — степени, в которой они препятствуют прохождению воздуха, начиная с того, чтобы просто вызвать резонанс, и до того, чтобы заставить воздух с шумом преодолеть препятствие и в итоге полностью остановиться. Слово, начинающееся с менее шумного согласного, всегда предшествует слову, начинающемуся с более шумного согласного. Зачем спрашивать, почему?

* * *

Теперь, когда завершено путешествие по голосовому тракту, вы имеете представление о том, как образуется и становится слышимым огромное большинство звуков в языках мира. Хитрость заключается в том, что звук речи — это не одно-единственное движение одного органа. Каждый звук речи — это комбинация таких движений, каждое из которых порождает свою собственную модель формирования звуковой волны и происходит более или менее синхронно с остальными — вот одно из объяснений того, почему речь может быть такой быстрой. Как вы, вероятно, заметили, звук может быть назальным или неназальным, и может быть образован корпусом языка, кончиком языка или губами, что дает шесть возможных комбинаций:

{пустая ячейка таблицы} — Назальный (Нёбная занавеска поднята) — Не назальный (Нёбная занавеска опущена)

Губы — m — p

Кончик языка — n — t

Корпус языка — ng — k

Аналогично, звонкость комбинируется всеми возможными способами с тем или иным органом речи:

{пустая ячейка таблицы} — Звонкий (Гортань издает шум) — Глухой (Гортань не издает шума)

Губы — b — p

Кончик языка — d — t

Корпус языка — g — k

Таким образом звуки речи аккуратно заполняют столбцы, ряды и ярусы многомерной матрицы. Во-первых, один из шести органов речи выбирается в качестве основного для артикуляции: гортань, нёбная занавеска, корпус языка, кончик языка, корень языка или губы. Во-вторых, выбирается способ, которым этот орган осуществляет артикуляцию: щель, смычка или гласность. В-третьих, может быть точно установлена конфигурация остальных органов речи: для нёбной занавески — назальность или ее отсутствие, для гортани — глухость или звонкость, для корня языка — напряженность или ненапряженность, для губ — округленность или неокругленность. Каждый вариант конфигурации является символом для набора команд для мышц органов речевого аппарата и такие символы называются признаками. Для артикуляции фонемы эти команды должны быть выполнены в совершенно определенный временной промежуток, это самые сложные гимнастические упражнения, которые нам приходится исполнять.

Для английского языка перебор этих комбинаций определяет 40 фонем, несколько больше среднего уровня для языков мира. В других языках это количество варьируется от 11 (полинезийский) до 141 (хойсан, или язык бушменов). А весь целиком список фонем для языков мира насчитывает тысячи, но все они определяются комбинациями шести органов речи, их положения и формы. Другие звуки, издаваемые ртом, не используются ни в одном языке, например: скрежетание зубами, цокание языком, фыркание и пронзительный крик, подобный крику Дональда Дака. Даже непривычные щелчки в языках хойсан и банту (сходные со звуком тск-тск и ставшие известными благодаря певице Мириам Макеба) не являются самостоятельными фонемами в составе этих языков. Щелчок — это признак способа артикуляции, такой же как смычка или щель, и он комбинируется со всеми остальными признаками, чтобы определить новый ярус столбцов и рядов в фонологической таблице языка. Есть щелчки, образуемые губами, кончиком языка и корпусом языка, каждый из которых может быть назальным или нет, звонким или нет, и т.д., так что в итоге получается 48 щелчковых звуков!

* * *

Фонемный состав — это одна из тех вещей, которые придают языку его характерное звучание. Например, японский язык знаменит тем, что он не различает r и l. Когда я приехал в Японию 4 ноября 1992 г., лингвист Масааки Яманаси подмигнул, приветствуя меня, и сказал: In Japan we have been very interested in Clinton’s erection ‘У нас в Японии вызывала большой интерес эрекция Клинтона’. (Имелось в виду: выборы Клинтона — Clinton’s election.)

Мы часто узнаем характерное звучание языка даже в том потоке речи, который не содержит реально существующие слова, как, например, у шведского повара в шоу «Маппетс» или в «самурайской» речи Джона Белуши. Лингвист Сара Г. Томасон обнаружила, что люди, заявляющие, будто помнят свои прошлые жизни или неожиданно начинающие говорить на незнакомых до этого языках, действительно выдают некую тарабарщину, смутно напоминающую заявленный язык по характерному звучанию. Например, находясь под гипнозом, одна такая женщина, заявлявшая, что она болгарка, жившая в девятнадцатом веке и разговаривавшая со своей матерью о солдатах, опустошавших их местность, выдавала нечто псевдославянское:

Ovishta reshta rovishta. Vishna beretishti? Ushna barishta dashto. Na darishnoshto. Korapshnoshashit darishotoy. Aobashni bedetpa.

И, конечно, когда слова на одном языке произносятся со звучанием, характерным для другого языка, мы называем это иностранным акцентом, как в нижеприведенном отрывке из незаконченной сказки Боба Белвисо:

GIACCHE ENNE BINNESTAUCCHE

Uans appona taim uase disse boi. Neimmese Giacche. Naise boi. Live uite ise mamma. Mainde da cao.

Uane dei, di spaghetti ise olle ronne aute. Dei goine feinte fromme no fudde. Mamma soi orais, «Oreie Giacche, teicche da cao enne traide erra forre bocchese spaghetti enne somme uaine».

Bai enne bai commese omme Giacche. I garra no fudde, i garra no uaine. Meichese misteicche, enne traidese da cao forre bonce binnese.

Giacchassc!

Что определяет характерное звучание языка? Это должно быть нечто большее, чем просто множество фонем. Рассмотрим следующие слова:

ptak thole hlad

plast sram mgla

vlas flitch dnom

rtut toasp nyip

Все составляющие их фонемы есть в английском языке, но любой, для кого этот язык является родным, определит, что слова thole, plast и flitch не английские, хотя они могли бы ими быть, а остальные слова — не английские и не могли бы ими быть. Должно быть, у носителей языка существует неосознанное понимание того, как могут выстраиваться в этом языке фонемы. Фонемы, выстраиваются в слова не как одномерные цепочки, идущие слева направо. Подобно словам и синтаксическим группам, фонемы группируются внутри единиц, которые группируются внутри больших единиц и так далее, создавая древесную структуру. Группа согласных (C) в начале слога называется приступ (onset); гласный (V) и любые согласные, идущие после него, называются рифма (rime):

Правила, по которым создаются слоги, определяют виды слов, имеющие и не имеющие право существовать в языке. В английском приступ может состоять из группы согласных, например: flit, thrive и spring, если они следуют определенным ограничениям. (Например, слова vlit и sring существовать не могут.) Рифма может состоять из гласного, за которым следует согласный или определенная группа согласных, как в словах toast, lift и sixths. В японском, наоборот, в приступе может содержаться только один согласный, а рифма должна быть исключительно гласной; поэтому strawberry ice-cream передается как sutoroberi aisukurimo, a girlfriend — как garufurendo. Итальянский допускает некоторые группы согласных в приступе, но не допускает согласных на конце рифмы. Белвисо использовал это ограничение, чтобы сымитировать характерное итальянское звучание в истории про Giacche: and стало enne, from — fromme, beans — binnese.

Приступы и рифмы не просто определяют, может ли звук существовать в языке, они являются теми частями звучащего слова, которые наиболее бросаются в глаза, и потому именно ими оперируют в стихосложении и игре слов. У рифмующихся слов общая рифма, у слов с аллитерацией общий приступ (или просто начальный гласный). Pig Latin, eggy-peggy, aygo-paygo и другие тайные детские языки имеют тенденцию сращивать слова на границе приступа и рифмы, и то же самое происходит в таких конструкциях на Yinglish[80], как: fancy-shmancy и Oedipus-Shmoedipus. В одной из самых популярных песен 1964 г. — «Игра Имен» («The Name Game»: “Noam Noam Bo-Boam, Bonana Fana Fo-Foam, Fee Fi Mo Moam, Noam”) Ширли Эллис могла бы сэкономить несколько строк в строфе, объясняющей правила, если бы она просто дала ссылку на понятия приступа и рифмы.

В свою очередь, слоги собираются в ритмические группы под названием стопа (foot):

Слоги и стопы классифицируются как ударные и безударные в соответствии с другими правилами, и схема расположения ударных и безударных ветвей определяет, насколько напряженным будет этот слог при его произнесении. Стопы, так же как и приступы и рифмы, это наиболее заметные составляющие сло?ва, которыми мы склонны манипулировать в стихосложении и при игре слов. Стихотворный размер определяется теми видами стоп, которые выстраиваются в строку. Последовательность стоп, при которой сначала идет ударный слог, а потом — безударный, называется хореем, например: Mary had a little lamb; последовательность, при которой сначала идут безударные, а потом — ударные, называется ямбом, например: The rain in Spain falls mainly in the plain. Жаргон, популярный среди юных хулиганов, содержит такие формы как: fan-fuckin-tastic, abso-bloody-lutely, Phila-fuckin-delphia и Kalama-fuckin-zoo[81]. Как правило, нецензурные слова появляются перед теми, которые необходимо выделить; когда у Дороти Паркер[82] однажды спросили, почему она в последнее время не появляется на симфонических концертах, она ответила: I’ve been too fucking busy and vice versa ‘Я была слишком нецензурное слово занята и наоборот’[83]. Но на упомянутом жаргоне нецензурщина появляется внутри слова, а не предложения, и всегда перед ударной стопой. Этому правилу следуют с фанатичной точностью: если вы скажете Philadel-fuckin-phia, то взрывом смеха вас вынесет за двери бара.

* * *

Фонемный состав в морфемах и словах, хранящихся в памяти, претерпевают ряд аккомодаций прежде чем в итоге получить звуковое выражение, и эти аккомодации продолжают формирование звуковой модели языка. Произнесите слова pat и pad. Теперь добавьте флексию -ing и произнесите их снова: patting, padding. Во многих английских диалектах теперь они будут произноситься одинаково, стерлась первоначально существовавшая разница между t и d. Стерлась она в результате действия фонологического правила под названием «схлопывание»: если смычный согласный, образованный кончиком языка, появляется между двумя гласными, то этот согласный артикулируется так: язык быстро касается края десен вместо того, чтобы задержаться там достаточно долго, чтобы наросло давление воздуха. Правила, подобные «схлопыванию», действуют не только на стыке двух морфем, как pat и -ing, они также действуют и в словах, состоящих из одного корня. Для многих носителей английского языка слова ladder и latter произносятся одинаково (кроме как в преувеличенно внятной речи), хотя люди и «чувствуют», что звуки в этих словах разные и эти слова по-разному представлены в ментальном словаре. Благодаря тому же явлению, если разговор заходит о коровах, какой-нибудь острослов может упомянуть udder mystery, udder success и т.д.[84]