Информатика 7 класс. §17 Системы перевода и распознавания текста

Сегодня, когда мы можем получить доступ к знаниям со всего мира, возникает потребность в быстром автоматизированном переводе. Эту задачу выполняют программы-переводчики. Переводчики знают особенности построения фраз переводимых языков, грамматические формы, и могут выдать вполне грамотную фразу на вашем родном языке. Главная трудность автоматического перевода - многозначность слов. Что бы помочь правильно подобрать значение – нужно определить из какой области текст. Другая проблема – использование нарицательных значений, и фразеологических оборотов. Для этого программы-переводчики применяют шаблоны фраз. Но всё равно получаются ошибки. Идея передать перевод «коллективному разуму», которую применял Google не принесла успеха. Переводчик Google предлагал пользователям улучшить перевод и запоминал предложенные варианты. Но нашлось слишком много шутников, которые стали давать фривольные варианты перевода. Известен мем с переводом в Чехии надписи «Берегите голову» как «Не вмажьтесь головой» с матерным словом. Продвинутые программы перевода позволяют переводчику в удобном интерфейсе проходить последовательно по каждому слову и выводят для каждого слова набор его значений. Пользователю остаётся только щёлкать мышкой на нужном значении. Есть также полуавтоматические программы – в них вообще может не быть словаря – они запоминают как вы перевели текст, и в следующий раз встречая такое же сочетание слов подставляют ваш вариант. Для тех, кто знает иностранный язык, но не знает некоторых слов, есть программы – словари. Вы просто подводите мышку к незнакомому слову и программа показывает варианты перевода. Вообще, надо сказать, что появление бесплатных переводчиков подкосило рынок программ перевода. Большинству людей достаточно корявого перевода, а кто хочет качественную работу – обращается к профессионалам. Количество покупателей упало, и сделало разработку нерентабельной. * Распознавание текста Лидером в России является российская программа FineReader. Кроме распознавания она умеет распознавать шрифт, и даже сохраняет форматирование! Алгоритм распознавания сначала выделяет объекты похожие на фразы, затем разбивает её на отдельные буквы, и на слова. Затем либо сравнивает каждую букву с эталоном – если тест хорошо напечатан, либо может применять «фонтанное преобразование» метод – при которым анализируются опорные точки схождения элементов, изменения направления, и т.п. «Фонтанное преобразование» может распознать плохо пропечатанный текст, и даже разобрать рукописный текст – для него не важно совпадает ли буква с шаблоном, а важны «опорные точки», которые даже при нетвёрдом почерке обычно у всех одинаковы.

4 views

191