Оглавление блога

четверг, 22 января 2009 г.

Возвращаясь к напечатанному

В посте "Итальянские переводы "Мастера и Маргариты", я предположил, что о качестве перевода можно судить, в частности, и по объему его словаря - числу уникальных, неповторяющихся слов. Владимир Васильевич Рыков, к которому я обратился с просьбой порекомендовать удобную программу статистической обработки текстов, рассказал, что он сам в 80-е годы составил частотные словари Высоцкого и Мандельштама, так у Высоцкого словарь был почти в 10 раз больше чем у Мандельштама! "Но это ни о чем не говорит! - Уникальные смыслы рождаются из неповторимых сочетаний самых обычных слов!".

Святая правда! Например, "знойная женщина - мечта поэта", "плюшками балуемся" - повседневные слова в необычном сочетании.

Но хотя этот тезис безусловно верен для ОРИГИНАЛЬНОГО ПРОИЗВЕДЕНИЯ, сдается мне, что в отношении перевода он верен лишь отчасти: Если нужно сделать копию с картины Репина "Не ждали", а у художника всего 2 краски, зеленая и синяя, она неизбежно получится неудачной. Конечно, она может не получиться и имей он широкую палитру, но тогда у него хотя бы будет шанс.

И вот - премного благодарен Виктору Захарову из СПб за подсказку - онлайновый сервис статистической обработки текста. Оказывается, на "Мультитране" есть:

http://multitran.ru/c/m.exe?a=128


Введите текст по-русски или по-английски. После обработки будет выведена статистика: список слов, приведенных к основной форме, и их количество в тексте.





Думаете "всего слов" - это уникальных, неповторяющихся? Увы. Это общее число слов, как в статистике Ворда. Но беда поправима: помечаем весь список слов и копипейстим его в вордовский документ:

а2 александрович1 ассоциация1 бездомный1 белый1 берлиоз1 брюки1 быть3 в8 весною1 вихрастый1 второй1 выбритый1 гражданин1 два1 жаркое1 жеваный1 журнал1 закат1 заломить1 затылок1 и2 иван1 из2 именуемый1 иной1 как1 кепка1 клетчатый1 ковбойка1 крупнейший1 кто1 летний1 литературный1 лицо1 лысый1 маленький1 массолит1 михаил1 молодая2 москва1 московский1 на3 не1 небывало1 нес1 николаевич1 одетый1 один1 однажды1 он2 они1 оправа1 очко1 пар1 патриарший1 первый2 пирожок1 пишущий1 плечистый1 под1 помещаться1 понырев1 поэт1 появиться1 правление1 председатель1 приличный1 пруд1 псевдоним1 размер1 редактор1 роговой1 роста1 рука1 рыжеватый1 сверхъестественное1 свой1 серенький1 сокращенно1 спутник1 тапочек1 толстый1 упитанный1 хорошо1 художественный1 час1 человек1 черной2 шляпа1

(Чтобы фокус удался, нужно зайти на этот сервис Файерфоксом. Копипейст с Аутлука, увы, дает таблицу).

После чего, считаем слова как обычно, статистикой Ворда. Это и будет число уникальных, неповторяющихся слов - объем словаря произведения или его перевода.

Увы, целиком текст бессмертного романа этот сервис не переваривает, приходится скармливать его по главам, что, в общем-то, обесценивает всю процедуру. Обсчитал две первые главы оригинала и двух английских переводов: Гленни и Волохонской. Перевод Дианы Бургин у меня только в книжном виде, в электронном не нашел. Вот:

Оригинал, глава 1, слов - 3404, уникальных - 1291
Оригинал, глава 2, слов - 6913, уникальных - 2046
Перевод Волохонской, глава 1, слов - 4801, уникальных - 1192
Перевод Волохонской, глава 2, слов - 9925, уникальных - 1697
Перевод Гленни, глава 1, слов - 4755, уникальных - 1208
Перевод Гленни, глава 2, слов - 9646, уникальных - 1789

Дальнейшие статистические изыскания с использованием этого сервиса, по-моему, не имеют смысла.

Выводы:
1) английский - аналитический язык, не удивительно, что общее число слов в английских текстах намного больше, чем в русских: ночь = the night, болеть = to ache, автомобиля = of the car и т.п.
2) число уникальных слов в оригинале чуть больше, в переводах - чуть меньше (нужно еще будет на досуге посмотреть переводы с английского на русский). Разница между объемами словаря двух переводов - незначительна, разница в качестве переводов (мое мнение) - весьма существенна. Таким образом, корреляция между качеством перевода и объемом словаря отсутствует. Должно быть, для оценки нужен более сложный статистический критерий, если таковой вообще существует. Например, число слов, не входящих в первые три (пять) тысяч наиболее частотных.
3) Можно попробовать счет уникальных слов для оценки небольших по объему произведений и переводов (Алиса в стране чудес, Маленкий принц, и т.п.)
4) Увы, согласно аннотации, этот сервис не позволяет обрабатывать другие языки, кроме английского и русского.

P.S. Знаю, можно обработать все главы, одну за другой, потом свести словари 5-6 глав и снова обработать, и т.д. И в итоге получить словник всего романа, всего перевода 1, всего перевода 2. Занудное действо: мешает природная лень и отсутствие какой бы то ни было материальной мотивации...

4 комментария :

Maxim Manzhosin комментирует...

>целиком текст бессмертного романа этот сервис не переваривает

Такие функции имеются в программе ExtPhr32:
http://publish.uwo.ca/~craven/freeware.htm

К сожалению, в ней разные словоформы считаются разными словами.

Sergio комментирует...

Максим, таких программ, которые считают не слова, а словоформы - легион. Я, например, скачал и установил Concordance (ее месяц можно юзать бесплатно). Фишка в том, чтобы это был "список слов, приведенных к основной форме", без приведения к основной форме посчитать число уникальных слов невозможно. Если этого не делает программа (автоматически), придется делать мне (пользователю), вручную.

Unknown комментирует...

Могу предложить программу для анализа английских текстов. Она сравнивает текст со словарем в 2500 наиболее употребимых английских слов.
Показывает, какой процент текста покрывается словарем, сколько уникальных слов, какой процент уникальных слов в тексте и т.д.
Это значительно ускоряет учебу за счет выбора правильных текстов в соответствии с Вашими возможностями.
http://www.plati.ru/asp/pay.asp?idd=1714240
Например, с помощью нее нашел интересный текст на английском для обучения начинающих:
Twain Mark "The ?1,000,000 Bank-Note"

Sergio комментирует...

Дмитрий! Лингвистичекая дидиктика увы, не интересует. Кроме меня есть кому учебники и упражнения составлять.