По большому счету, нарушения и утверждения, сделанные в этом объявлении Google, вероятно, являются незначительным обманом, но я все же думаю, что их следует оспорить и разоблачить, если это возможно, и если это действительно справедливая критика. Мы живем в мире, где корпоративные злоупотребления стали нормой дня. Здесь у нас есть небольшой пример, который может превратиться в нечто худшее. В Monsanto, Well Fargo, Goldman Sachs нет злых людей (может быть, только наверху), ноу них есть культура, которая вознаграждает определенные виды поведения, противоречащего этическим нормам, если это приносит пользу компании или помогает вам сделай свои цифры. Для меня это пример в натуральной форме, который говорит вам кое-что о культуре Google.

Мы все еще довольно далеки от почти неотличимого от человеческого перевода. Нам нужно быть осторожными, чтобы не преувеличить определенный и очевидный прогресс, который действительно был достигнут в этом деле. По какой-то причине это (преувеличение прогресса) происходит снова и снова в МТ. Имейте в виду, что делать такие широкие выводы на выборке из 500 рискованно с приложениями для больших данных (вероятно, более 250 миллионов пар предложений), даже если выборка действительно хорошо подобрана и эксперимент имеет безупречный протокол, что в данном случае ПРОСТО НЕ ВЕРНО для оценка человека. Процесс рейтинга несовершенен до такой степени, что нам приходится подвергать сомнению некоторые или многие выводы, сделанные здесь. Наиболее достоверными данными, представленными здесь, являются баллы BLEU, предполагающие, что это действительно слепой набор тестов, и очки Google не использовались для просмотра. тест.

На это предложение мне только что указали после того, как этот пост был опубликован, поэтому я добавляю обновление в качестве постскриптума на месте. Nature (Journal of Science) предоставляет немного больше подробностей о процессе тестирования человека.

  1. Затем, взяв это несколько сомнительное исследование и заявив, что GNMT «почти неотличим от человеческого перевода», и придумать способ представить это как улучшение «от 55% до 85%».
  2. NMT, безусловно, является способом повышения качества машинного перевода и продвижения вперед, но на данный момент он ограничен теми, кто обладает глубокими знаниями и имеет доступ к огромным ресурсам обработки и данных.
  3. Проблемы NMT (скорость обучения и логического вывода, проблемы с небольшим словарным запасом, пропущенные слова и т. д.) будут решены раньше, чем позже.

"Для некоторых других языковых пар точность NMTS приближается к точности переводчиков-людей, хотя авторы предупреждают, что значимость теста ограничивалась выборкой хорошо составленных простых предложений. >”

Не будет ли это академическим мошенничеством? Итак, теперь они говорят, что «оценщики» не понимали предложений и что предложения были по существу упрощены, т. е. сфальсифицированы. Чтобы получить желаемый и пригодный для публикации результат? Для большинства представителей научного сообщества этого было бы достаточно, чтобы сделать паузу и повод быть очень осторожными с любыми заявлениями, но, конечно, не для Google, который выглядит подозрительно так, как будто они действительно создали «результаты» на исследовательском уровне.

Эти результаты согласуются с тем, что сообщает SYSTRAN (описано «здесь» ), и на самом деле они немного менее убедительны. на уровне баллов BLEU, чем результаты SYSTRAN, как я объяснял выше. (Да, Майк, я знаю, что это не один и тот же тренировочный и тестовый набор.)

Теперь, когда я избавился от разглагольствований, вот мои мысли о том, что может означать этот «прорыв»:

Посмотреть этот пост с графикой можно по исходной ссылке: http://kv-emptypages.blogspot.com/2016/09/the-google-neural-machine-translation.html

  • Подобные результаты экспериментов следует интерпретировать с осторожностью, особенно если они основаны на такой неоднозначной системе оценок для людей. Не просто читайте заголовок и верьте ему, особенно если он исходит от людей с корыстными интересами. Google.
  • Действительно хороший машинный перевод всегда выглядит как человеческий перевод, но важно то, сколько сегментов в наборе из 100 000 похожи на человеческий перевод. Мы должны сохранить наши «почти неразличимые» комментарии до того момента, когда мы приблизимся к 90% или, по крайней мере, 70% всех этих сегментов, которые будут почти человеческими.
  • Успех в Google, хотя и преувеличенный, только что поднял планку как для экспертов, так и особенно для практиков Моисея DIY, что сейчас имеет еще меньше смысла, поскольку вы почти всегда можете добиться большего успеха с обычными Google или Microsoft, у которых также есть инициативы NMT. и в производстве.
  • Сейчас у нас есть несколько комплексных инициатив NMT, которые находятся в стадии реализации и близки к выпуску от Facebook, Microsoft, Google, Baidu и Systran. В краткосрочной перспективе я по-прежнему считаю, что Adaptive MT более значим и эффективен для пользователей в сфере профессиональных переводов, но, как предполагает SYSTRAN, NMT «адаптируется» очень быстро с минимальными усилиями при небольших объемах корректирующих действий человека. . Это очень важное требование для использования машинного перевода в профессиональном мире. Если NMT будет так же реагировать на корректирующую обратную связь, как нам сообщает SYSTRAN, я думаю, мы увидим гораздо более быстрый переход к NMT.
  • Недавно я наткнулся на «этот маленький кусочек» и сначала подумал, как замечательно, (NMT, безусловно, растет!) и решил присмотреться и «прочитать исследовательскую работу». Это упражнение оставило меня немного неуверенным, так как теперь я почувствовал сомнение и начал подозревать, что это всего лишь еще один пример того бесконечного рефрена мира МП, пустого обещания. Без сомнения, Google добился определенного прогресса, но «Почти неотличим от человеческого перевода» и «GNMT снижает количество ошибок перевода более чем на 55%-85% для нескольких основных языковых пар». Хммм, не совсем, совсем не совсем, вот что твердил мне мой надоедливый мозг, особенно когда я видел, как «это объявление» появлялось снова и снова по многим новостным каналам, вероятно, сильно подталкиваемым маркетинговой инфраструктурой Google.< br />
    Наверняка великий Google с исходной идеей «Don't Be Evil» не стал бы вводить нас в заблуждение таким образом. (В письме своих учредителей от 2004 года перед первоначальным публичным размещением акций Ларри Пейдж и Сергей Брин объяснили, что их культура «Не будь злым» запрещает «конфликты интересов» и требует «объективности» и отсутствия «предвзятости». ) Судя по всему, «Gizmodo уже знал» о нарушении обещания в 2012 году. Мой друг Рой сказал мне, что: После корпоративной реструктуризации Google в конгломерат Alphabet Inc. в октябре 2015 года «слоган был заменен» в корпоративном кодексе поведения Alphabet на фраза «Поступай правильно». Однако и по сей день в кодексе поведения Google по-прежнему присутствует фраза «Не будь злым». Эта способность легко обходить правила (но не нарушать закон) и делать скользкие суждения, удобные для корпоративных интересов, хорошо описана «Маргарет Ходж в этом маленьком фрагменте». Ясно, что Google знает, как продвигать самодовольный, слегка ложный контент через глобальную систему сбора и распространения новостей, используя такие термины, как исследование и прорыв, с несколько шаткими исследовательскими данными, которые включают математику, привлекательные блок-схемы и множество таблиц, показывающих «важные исследовательские данные». . В конце концов, они короли SEO. Однако я отвлекся.

    Основной обман, о котором я говорю, и да, я понимаю, что это могут быть сильные слова, — это преувеличение фактических результатов с использованием сомнительной методологии, в которой я будет рассматривать арифметическую манипуляцию с базовыми данными, чтобы поддержать корпоративный маркетинговый ход сообщений (по сути, чтобы ввести в заблуждение случайного, доверчивого, но наивного читателя, который не знает о шатких основах, которые здесь играют, и о статистике в целом). На самом деле не большое преступление, но, конечно, немного злое и неряшливое. Не совсем уровень зла и подлости Wells Fargo, Monsanto, Goldman Sachs и «Valiant & Turing Pharmaceuticals» (взвинчивание цен на лекарства), но дайте им время, и я уверен, что они могли бы подняться до этого уровня, и они вполне возможно, активизируют свою дешевую игру, если на карту поставлено достаточно денег и проблем с бизнес-преимуществом. ИИ и машинное обучение можно использовать для самых разных целей, как подлых, так и не очень, если у вас есть правильная власть и поддержка.

    Итак, в целом я вижу три проблемы с «этим объявлением»:
  • Как «я сказал в предыдущем посте о Systran NMT»: у них есть причины для волнения, но все мы в MT прошли этот путь раньше, и, как многие из нас знают, история MT полна Пустые обещания.

    Специалиста по маркетингу в Google, который разместил это объявление в его нынешнем виде, следует попросить «посмотреть это видео» (ссылка NSFW, НЕ нажимайте на нее, если вы легко обиделся) не менее 108 раз. Другие парни тоже должны посмотреть его несколько раз. Серьезно, не будем пока увлекаться. Давайте подождем, чтобы услышать от реальных пользователей, и давайте подождем, чтобы увидеть, как это работает в сценариях производственного использования, прежде чем мы будем праздновать.

    Что касается корпоративного девиза Google, я думаю, что он был уже некоторое время верно, что Google, по крайней мере, немного злой, и я рекомендую вам посмотреть «трехминутное резюме Маргарет Ходж», чтобы понять, что я имею в виду. Скатиться со скользкого склона намного проще, чем стоять на узком крутом уступе при сильном ветре. В современном мире власть и финансовые приоритеты доминируют над этикой, честностью и принципиальностью, и Google просто следует за толпой, в которую входят их друзья из Well Fargo, Goldman Sachs, VW и Monsanto. Некоторое время назад я сказал, что сегодня более подходящим девизом для Google может быть: "Вы даете, мы берем". Сундар должен ходить по кампусу в футболке (предпочтительно сделанной в Бангладеш с использованием малооплачиваемого детского труда) с этим новым девизом, смело выведенным на ней каким-нибудь крутым шрифтом Google. По крайней мере, тогда маркетингу Google не пришлось бы притворяться, что у них есть какое-либо этическое, объективное или беспристрастное ядро, с которым нынешний (первоначальный) девиз заставляет их постоянно бороться. Ведический взгляд на состояние человека сквозь эпохи говорит, что в настоящее время мы живем в конце «Кали-юги», века тьмы, лжи и неверных ценностей. Эпоха, когда шарлатанов (Goldman Sachs, VW, Monsanto, Wells Fargo и Google) почитают и даже считают пророками. Будем надеяться, что эта эра скоро закончится.

    «Флориан Фаес» приложил доблестные усилия, чтобы «обеспечить справедливую и сбалансированную точку зрения» на эти утверждения со стороны различных Голоса экспертов МТ. Мне особенно понравились комментарии Рико Сеннриха из Эдинбургского университета, который наиболее эффективно справляется с чушью Google. Для тех, кто считает мои разглагольствования необоснованными, предлагаю прочитать обсуждение Slator, так как вы получите гораздо более разностороннее мнение. У Флориана даже есть опровержения от Майка Шустера из Google, чьи ответы более чем похожи на ответы представителей Well Fargo, VW и Goldman Sachs. Кроме того, для протокола: я не разделяю заявления Google о том, что «качество перевода нашей системы приближается или превосходит все опубликованные в настоящее время результаты», если только вы не рассматриваете только их собственные результаты. Я готов поспорить на 5 долларов, что и Facebook, и Microsoft (и, возможно, Systran и Baidu) имеют равные или лучшие технологии. «Slator» — это лучшее, что случилось с «индустрией переводов» с точки зрения актуальных текущих новостей и журналистских расследований, и я надеюсь, что они будут процветать и преуспевать.

    Я по-прежнему готов исправиться, если моя критика беспочвенна или несправедлива, особенно если кто-то из Google поправит меня. Но я не буду задерживать дыхание, во всяком случае, до конца Кали-юги.

    МИР.

Маркетинговый обман Google Neural Machine Translation

Недавно я наткнулся на этот маленький кусочек и сначала подумал, как замечательно (NMT, безусловно, растет!), И решил присмотреться поближе и…