Слово было воспринято Вертовым как нечто мешающее. Кадры должны были перевести непонятный язык песен в сознание зрителя, избегая слов как посредников. В рабочих тетрадях он записал в 1934 году, что кадр «Ленин — это весна» «идет в фильме не по каналу слов, а другими путями — по линии взаимодействия звука и изображения, по равнодействующей многих каналов, идет глубинными путями. <…> Мысли бегут с экрана, проникая в сознание зрителя без перевода в слова», они должны попадать в мозг зрителя «непосредственно». «Ток мыслей» Вертов описывает в музыкальных терминах («симфонический оркестр мыслей», «катастрофа скрипок», «контрапунктическая дорога»). В этом контексте понятие «симфония» получает несколько иной оттенок: она теряет качества звучания и становится «немой музыкой» — формой, организованной не по принципам литературной повествовательности:
...Мне кажется, что еще не все понимают разницу между аморфным и кристаллическим состоянием документального киноматериала, между неорганическими и органическими сочетаниями кадров друг с другом. Еще до сих пор не все отдают себе отчет в том, что значит написать полнометражную фильму кинокадрами. <…> Содержание «Трех песен» разворачивается спирально, то в звуке, то в изображении, то в голосе, то в надписи, то без участия музыки и слов, одними выражениями лиц, то внутрикадровым движением, то столкновением одной группы снимков с другой группой, то ровным шагом, то толчками от темного к светлому, от медленного к быстрому, от усталого к бодрому, то шумом, то немой песней, песней без слов, бегущими мыслями от экрана к зрителю без того, чтобы зритель-слушатель переводил мысли в слова.
Вертов отказался от комментаторского текста и был горд, что его фильм понимался как «песня без слов». В статье для газеты «Рот-Фронт» 14 августа 1934 года он описал, как его фильм был показан без перевода иностранцам — японцам, американцам, немцам, французам, шведам, — и все уверяли режиссера, что перевод им был не нужен. Для подкрепления он цитировал Герберта Уэллса:
...«Если бы Вы не перевели мне ни одного слова, я понял бы фильм весь, от первого до последнего кадра. Все мысли и нюансы этого фильма входят в меня и действуют на меня помимо слов». На наше замечание, что самые сильные по своему смыслу и своей выразительности моменты, как, например, выступление ударницы Днепростроя или речь руководительницы колхоза, пропали для Уэллса (так как здесь все дело в особенностях построения монолога, в акценте, в некоторых синтаксических неправильностях и т. д.), Уэллс горячо возразил, что он все понял, что до него доходит искренность, правдивость, жизнерадостность этих говорящих людей, что их неловкие жесты, игра глаз, смущение в лице и другие детали позволяют ему читать их мысли и он не ощущает никакой потребности в переводе ему этих слов.
Вертов считал, что только в своей четвертой песне — сталинской «Колыбельной» (1937) — ему удалось то, что не получалось в ленинском фильме: передать содержание звукозрительного документа словами. «Три песни» обошлись без диктора и без переводчика. Вертов достиг, как ему казалось, органической целостности: сама жизнь говорила с экрана без посредника. Большей удаленности от позиции киноглаза трудно представить. В дневнике он отметил, что если бы он использовал диктора, то его экран заговорил бы через слова и пошел путем «словесного радио»: «Разнообразие восприятия было бы потушено и помещено в словесное русло. Автор текста связал бы свои мысли во фразы <…> Зритель стал бы слушателем. И <…> переводил бы эти фразы в мысли». На экране «жизнь говорит без помощника, без указчика, без наставника, который напористо объясняет, как надо и что надо зрителю видеть, слышать и понимать».
Медиум, то есть актуализированные в фильме медии (радио, пластинка, письмо, книга, газета), стали прозрачными и имитировали природные чувства, которые могли вступать друг с другом в свободный обмен; ассоциации, вызываемые звуком или запахом, тянули за собой картину. «Три песни» внушали совершенную переводимость всех приведенных средств (технических чувств) друг в друга, и семантические зазоры, неизбежные при таких смещениях, игнорировались или подавлялись. Эта стратегия резко отличается от экспериментов раннего авангарда, когда при замене буквы звуком или картинкой зритель-слушатель-читатель постоянно должен был ощущать границы и момент сдвига. Хотя футуристическая программа чувств была в этом фильме отвергнута, но ставка на ухо, которое все еще доминировало над глазом, осталась, структурно преобразованная.
Эйзенштейн разрабатывал в это время драматургию звукового фильма, определяемую им как внутренний монолог. Она развивалась, также следуя ритмическому повтору и вдалбливанию в сознание зрителя лейтмотива при постоянно меняющемся средстве воплощения, что Эйзенштейн сравнивал с техниками упражнений Лойлы, где образ (ада) должен был вызываться в воображении при активировании всех чувств — зрения (картины страдания), слуха (крики грешников, шипение огня, бульканье котлов), запаха и вкуса (серы, горящей кожи), ощущений кожи (жар, пот, жжение в глазах и во рту). Поскольку чувства кино были ограничены, то там лейтмотив должен был даваться сначала изображением, потом — звуковым повтором и наконец титром, письмом. Эти три ступени соответствовали, по Эйзенштейну, трем ступеням сознания. На первой — образное воплощалось в форме. На второй — в звучании, представляющем большую степень абстракции, нежели картинка, но сохраняющем прямые референциальные отношения с предметом изображения. Степень абстракции шрифта титра на третьей ступени была максимальна, теряя всякое миметическое подражание по отношению к объекту. Эта ступенчатая драматургия лежала в основе первых сценариев непоставленных звуковых фильмов Эйзенштейна «Золото Зуттера», «Американская трагедия», «Ферганский канал».