Морфологическая библиотека для разработчиков

Компания «Информатик» предлагает для разработчиков программные морфологические модули, которые предназначены для решения широкого класса задач, требующих средств поиска и анализа текстовой информации. Например, информационно-поисковые системы, аналитические системы и каталоги электронных документов.

В морфологических модулях компании «Информатик» используются передовые технологии обработки текста, лингвистические и математические алгоритмы, которые могут быть использованы для контекстного поиска документов с учетом всех словоформ, нахождения синонимов, проверки грамматики, проверки орфографии и для решения задач, построенных на основе анализа информационных массивов.

Разработанные компанией «Информатик» морфологические модули используют в своих системах такие организации как: Samsung, Syngenta, Quantum Art, ALP, Яndex и многие другие.

Предлагаемые модули:

Инструментарий разработчика
 Проверка орфографии
 Проверка грамматики
 Русская морфология
 Украинская морфология
 Английская морфология
 Немецкая морфология (до- и послереформенная)
 Французская морфология
 Испанская морфология
 Итальянская морфология
 Португальская и Бразильская морфологии
 Тезаурус
 Расстановка переносов
Поиск для Microsoft

Инструментарий разработчика

В начало

Проверка орфографии

Проверка орфографии (Speller) - полноценный модуль проверки орфографии: с выдачей подсказок и добавлением новых слов в словарь пользователя сразу во всех словоформах.

Модуль добавления слов в словарь пользователя реализован в 2 вариантах:

• со встроенным экранным интерфейсом

Генерирует список гипотез о парадигме добавляемого слова, упорядоченный по степени их соответствия правилам русского языка. В 90% случаев правильная гипотеза находится среди первых трех гипотез. Пользователь выбирает из списка правильную гипотезу, и слово заносится в словарь со всеми словоформами. Если слово обладает более сложной парадигмой, пользователь может выбрать ее из остальной части списка. Словарь пользователя может подключаться к остальным лингвистическим модулям компании "Информатик".

• без экранного интерфейса

Генерирует список гипотез о парадигме добавляемого слова, упорядоченный по степени их соответствия правилам русского языка. API позволяет получить список словоформ каждой гипотезы и ее характеристики (например, часть речи). Выбранные гипотезы могут быть добавлены в словарь пользователя, который будет затем использован при проверке. Словарь пользователя подключается к остальным лингвистическим модулям компании «Информатик».

Реализован для следующих языков:
- Русский;
- Украинский;
- Английский;
- Французский;
- Немецкий;
- Испанский;
- Итальянский;
- Португальский.
Продукт поставляется в виде динамической библиотеки (*.dll) для Windows.
Цены на морфологические модули подробнее
В начало

Проверка грамматики

Проверка грамматики (Russian Grammar) – проверяет более 40 различных грамматических правил русского языка, включая расстановку запятых. На тестах обнаруживает более 50% распространенных грамматических и синтаксических ошибок.
Модуль на выходе выдает текстовое описание ошибки, а также часть предложения (абзаца), где ошибка найдена.

Продукт поставляется в виде динамической библиотеки (*.dll) для Windows.
Цены на морфологические модули подробнее
В начало

Морфологические библиотеки для русского, украинского, английского, немецкого, французского, испанского, итальянского и португальского языков

Морфологические библиотеки - объединяют несколько модулей предназначенных для морфологического анализа слов и позволяют решить следующие задачи:

Приведение слов к словарной форме. Для поиска одной формы слова по другой его форме. Этот модуль приводит слова к словарной форме в соответствии с информацией из основного словаря или пополняемого морфологического словаря пользователя неограниченного объема. Для каждого слова дополнительно сообщается часть речи и 4-х байтный цифровой хэш-код (hash-code), с помощью которого можно индексировать тексты;

Синтез всех форм заданного слова. Модуль выдает все формы заданного слова, если оно находится в основном словаре или пополняемом морфологическом словаре пользователя неограниченного объема.

Библиотека позволяет провести точный анализ слов, находящихся в словаре ОРФО. В русском словаре общей лексики содержится около 180 тысяч словарных статей (лексем), в специализированных словарях еще около 60 тысяч, дающих вместе более 4-х миллионов словоформ. База для украинского языка содержит около 130 тысяч лексем, для английского - около 115 тысяч, для немецкого – 100 тыс., итальянского – 80 тыс., французского - 45 тыс., испанского - 48 тыс., португальского - 50 тыс., португальского (Бразилия) - 43 тыс. лексем. Для неизвестных слов библиотека с высокой степенью достоверности помогает сделать предсказание грамматических характеристик и парадигмы на основе комплекса правил словоизменения.

Ключевые характеристики модуля:
- словари общеупотребительной лексики большого объема;
- система быстрого пополнения словаря: в 99% случаев система сама определит тип словоизменения вводимого слова;
- система генерации уникальных идентификаторов слов: каждому слову, известному системе, ставится в соответствие уникальный идентификатор, позволяющий организовать компактный индекс произвольного массива документов с последующим поиском, учитывающим все словоформы.

Библиотека поможет включить морфологический анализ в системы информационного поиска. Она поддерживает все возможности морфологического анализа для известных и неизвестных слов: определение грамматических характеристик слова, приведение к словарной форме, получение требуемых словоформ, предсказание парадигмы неизвестных слов.

Продукт поставляется в виде динамической библиотеки (*.dll) для Windows.
Потестировать работу морфологических модулей on-line можно здесь Формы слова
Цены на морфологические модули подробнее
В начало

Тезаурус

Тезаурус (Russian Thesaurus) - выдача синонимов, антонимов и родственных слов русского языка.

Словарь синонимов русского языка включает более 70 000 русских слов и выражений, образующих около 10 000 групп синонимов (более 30 000 слов и выражений), 3 500 антонимов и 14 000 рядов родственных слов (около 20 000 однокоренных слов).

Тезаурус располагает возможностями:

• распознавание русских слов независимо от их формы в тексте;

• для любого слова Тезаурус предлагает синонимы и антонимы в той же форме, что и исходное слово.

Продукт поставляется в виде динамической библиотеки (*.dll) для Windows.
Цены на морфологические модули подробнее
В начало

Расстановка переносов

Расстановка переносов (Russian Нyphenation) - расстановка переносов в словах русского языка.

Есть возможность задавать качество переноса: Книжное или Газетное и код символа переноса. Сохраняется буква ё.

Продукт поставляется в виде динамической библиотеки (*.dll) для Windows.
Цены на морфологические модули подробнее

Поиск для Microsoft

В начало

Russian Indexer for Microsoft

Russian Indexer for Microsoft - позволит Вам значительно расширить возможности Microsoft Indexing Service и Microsoft SQL Server при работе с документами на русском языке: Вы сможете осуществлять поиск с учетом всех грамматических форм слов на основе морфологического анализа. Модуль предназначен для системных интеграторов и разработчиков приложений, использующих возможности морфологического поиска.

Russian Indexer for Microsoft предоставит Вам возможность:

• создавать полнотекстовые индексы (full text search index) в Microsoft SQL Server с учетом морфологии русского языка, что существенно упростит задачи администрирования и использования индексов;

• повысить точность, полноту и скорость поиска;

• использовать эффективный поиск по сайту/интернет-магазину Вашей компании.

Учет морфологии русского языка позволяет:

• корректно определять границы и форму слов;

• использовать список стоп-слов.

Преимущества Russian Indexer for Microsoft:

• разработан в соответствии со спецификацией Microsoft;

• поддерживает следующие форматы документов: MS Office, XML, html;

• имеет возможность расширения списка форматов;

• работает с файловой системой каталогов (WEB, архив документов);

• работает с полями таблиц базы данных;

• имеет словарь стоп-слов, настраиваемый на предметную область;

• имеет словарь общеупотребительной лексики - 280 тысяч слов (4,5 миллиона словоформ).

Цены на морфологические модули подробнее
Электронный словарь КОНТЕКСТ

Последние новости

27.05.2009.
В 2009 году компании Информатик исполнилось 20 лет!
05.12.2007.
Новогодние online подарки от Компании Информатик!
17.10.2007.
Бесплатное обновление для словаря КОНТЕКСТ 7.0
29.05.2007.
50% скидки при обновлении версии ОРФО
24.04.2007.
Электронные поставки словарей КОНТЕКСТ
26.03.2007.
ОРФО 9.0 можно купить у дистрибьюторов
12.03.2007.
15 марта поступает в продажу новая версия популярной программы проверки правописания ОРФО 9.0. (см. www.orfo.ru). Новая версия была разработана специально для поддержки Office 2007 и для работы в операционной среде Windows Vista
08.01.2007.
В Киргизии в компании «AKSOFT» можно приобрести продукты компании «Информатик».
02.11.2006.
«СОФТПРОМ» стала дистрибьютором компании «ИНФОРМАТИК»
12.12.2005.
Выход новой версии электронных словарей КОНТЕКСТ 7.0.
20.04.2005.
Открылся собственный интернет-магазин компании «Информатик» на базе платформы SoftKey.
28.09.2004.
Договор с компанией «МедиаХауз».
27.09.2004.
Выход новой версии электронных словарей КОНТЕКСТ 6.0.
18.05.2004.
Выход новой восьмой версии системы ОРФО 2004.
22.12.2003.
Договор с корпорацией Microsoft