Морфологическая библиотека для разработчиков

Компания «Информатик» предлагает для разработчиков программные морфологические модули, которые предназначены для решения широкого класса задач, требующих средств поиска и анализа текстовой информации. Например, информационно-поисковые системы, аналитические системы и каталоги электронных документов.

В морфологических модулях компании «Информатик» используются передовые технологии обработки текста, лингвистические и математические алгоритмы, которые могут быть использованы для контекстного поиска документов с учетом всех словоформ, нахождения синонимов, проверки грамматики, проверки орфографии и для решения задач, построенных на основе анализа информационных массивов.

Разработанные компанией «Информатик» морфологические модули используют в своих системах такие организации как: Samsung, Syngenta, Quantum Art, ALP, Яndex и многие другие.

Предлагаемые модули:

Инструментарий разработчика
 Проверка орфографии
 Проверка грамматики
 Русская морфология
 Украинская морфология
 Английская морфология
 Немецкая морфология (до- и послереформенная)
 Французская морфология
 Испанская морфология
 Итальянская морфология
 Португальская и Бразильская морфологии
 Тезаурус
 Расстановка переносов
Поиск для Microsoft

Инструментарий разработчика

В начало

Проверка орфографии

Проверка орфографии (Speller) - полноценный модуль проверки орфографии: с выдачей подсказок и добавлением новых слов в словарь пользователя сразу во всех словоформах.

Модуль добавления слов в словарь пользователя реализован в 2 вариантах:

• со встроенным экранным интерфейсом

Генерирует список гипотез о парадигме добавляемого слова, упорядоченный по степени их соответствия правилам русского языка. В 90% случаев правильная гипотеза находится среди первых трех гипотез. Пользователь выбирает из списка правильную гипотезу, и слово заносится в словарь со всеми словоформами. Если слово обладает более сложной парадигмой, пользователь может выбрать ее из остальной части списка. Словарь пользователя может подключаться к остальным лингвистическим модулям компании "Информатик".

• без экранного интерфейса

Генерирует список гипотез о парадигме добавляемого слова, упорядоченный по степени их соответствия правилам русского языка. API позволяет получить список словоформ каждой гипотезы и ее характеристики (например, часть речи). Выбранные гипотезы могут быть добавлены в словарь пользователя, который будет затем использован при проверке. Словарь пользователя подключается к остальным лингвистическим модулям компании «Информатик».

Реализован для следующих языков:
- Русский;
- Украинский;
- Английский;
- Французский;
- Немецкий;
- Испанский;
- Итальянский;
- Португальский.
Продукт поставляется в виде динамической библиотеки (*.dll) для Windows.
Цены на морфологические модули подробнее
В начало

Проверка грамматики

Проверка грамматики (Russian Grammar) – проверяет более 40 различных грамматических правил русского языка, включая расстановку запятых. На тестах обнаруживает более 50% распространенных грамматических и синтаксических ошибок.

Продукт поставляется в виде динамической библиотеки (*.dll) для Windows.
Цены на морфологические модули подробнее
В начало

Морфологические библиотеки для русского, украинского, английского, немецкого, французского, испанского, итальянского и португальского языков

Морфологические библиотеки - объединяют несколько модулей предназначенных для морфологического анализа слов и позволяют решить следующие задачи:

Приведение слов к словарной форме. Для поиска одной формы слова по другой его форме. Этот модуль приводит слова к словарной форме в соответствии с информацией из основного словаря или пополняемого морфологического словаря пользователя неограниченного объема. Для каждого слова дополнительно сообщается часть речи и 4-х байтный цифровой хэш-код (hash-code), с помощью которого можно индексировать тексты;

Синтез всех форм заданного слова. Модуль выдает все формы заданного слова, если оно находится в основном словаре или пополняемом морфологическом словаре пользователя неограниченного объема.

Библиотека позволяет провести точный анализ слов, находящихся в словаре ОРФО. В русском словаре общей лексики содержится около 180 тысяч словарных статей (лексем), в специализированных словарях еще около 60 тысяч, дающих вместе более 4-х миллионов словоформ. База для украинского языка содержит около 130 тысяч лексем, для английского - около 115 тысяч, для немецкого – 100 тыс., итальянского – 80 тыс., французского - 45 тыс., испанского - 48 тыс., португальского - 50 тыс., португальского (Бразилия) - 43 тыс. лексем. Для неизвестных слов библиотека с высокой степенью достоверности помогает сделать предсказание грамматических характеристик и парадигмы на основе комплекса правил словоизменения.

Ключевые характеристики модуля:
- словари общеупотребительной лексики большого объема;
- система быстрого пополнения словаря: в 99% случаев система сама определит тип словоизменения вводимого слова;
- система генерации уникальных идентификаторов слов: каждому слову, известному системе, ставится в соответствие уникальный идентификатор, позволяющий организовать компактный индекс произвольного массива документов с последующим поиском, учитывающим все словоформы.

Библиотека поможет включить морфологический анализ в системы информационного поиска. Она поддерживает все возможности морфологического анализа для известных и неизвестных слов: определение грамматических характеристик слова, приведение к словарной форме, получение требуемых словоформ, предсказание парадигмы неизвестных слов.

Продукт поставляется в виде динамической библиотеки (*.dll) для Windows.
Потестировать работу морфологических модулей on-line можно здесь Формы слова
Цены на морфологические модули подробнее
В начало

Тезаурус

Тезаурус (Russian Thesaurus) - выдача синонимов, антонимов и родственных слов русского языка.

Словарь синонимов русского языка включает более 70 000 русских слов и выражений, образующих около 10 000 групп синонимов (более 30 000 слов и выражений), 3 500 антонимов и 14 000 рядов родственных слов (около 20 000 однокоренных слов).

Тезаурус располагает возможностями:

• распознавание русских слов независимо от их формы в тексте;

• для любого слова Тезаурус предлагает синонимы и антонимы в той же форме, что и исходное слово.

Продукт поставляется в виде динамической библиотеки (*.dll) для Windows.
Цены на морфологические модули подробнее
В начало

Расстановка переносов

Расстановка переносов (Russian Нyphenation) - расстановка переносов в словах русского языка.

Есть возможность задавать качество переноса: Книжное или Газетное и код символа переноса. Сохраняется буква ё.

Продукт поставляется в виде динамической библиотеки (*.dll) для Windows.
Цены на морфологические модули подробнее

Поиск для Microsoft

В начало

Russian Indexer for Microsoft

Russian Indexer for Microsoft - позволит Вам значительно расширить возможности Microsoft Indexing Service и Microsoft SQL Server при работе с документами на русском языке: Вы сможете осуществлять поиск с учетом всех грамматических форм слов на основе морфологического анализа. Модуль предназначен для системных интеграторов и разработчиков приложений, использующих возможности морфологического поиска.

Russian Indexer for Microsoft предоставит Вам возможность:

• создавать полнотекстовые индексы (full text search index) в Microsoft SQL Server с учетом морфологии русского языка, что существенно упростит задачи администрирования и использования индексов;

• повысить точность, полноту и скорость поиска;

• использовать эффективный поиск по сайту/интернет-магазину Вашей компании.

Учет морфологии русского языка позволяет:

• корректно определять границы и форму слов;

• использовать список стоп-слов.

Преимущества Russian Indexer for Microsoft:

• разработан в соответствии со спецификацией Microsoft;

• поддерживает следующие форматы документов: MS Office, XML, html;

• имеет возможность расширения списка форматов;

• работает с файловой системой каталогов (WEB, архив документов);

• работает с полями таблиц базы данных;

• имеет словарь стоп-слов, настраиваемый на предметную область;

• имеет словарь общеупотребительной лексики - 280 тысяч слов (4,5 миллиона словоформ).

Цены на морфологические модули подробнее
Электронный словарь КОНТЕКСТ

Последние новости

05.12.2007.
Новогодние online подарки от Компании Информатик!
17.10.2007.
Бесплатное обновление для словаря КОНТЕКСТ 7.0
29.05.2007.
50% скидки при обновлении версии ОРФО
24.04.2007.
Электронные поставки словарей КОНТЕКСТ
26.03.2007.
ОРФО 9.0 можно купить у дистрибьюторов
12.03.2007.
15 марта поступает в продажу новая версия популярной программы проверки правописания ОРФО 9.0. (см. www.orfo.ru). Новая версия была разработана специально для поддержки Office 2007 и для работы в операционной среде Windows Vista
08.01.2007.
В Киргизии в компании «AKSOFT» можно приобрести продукты компании «Информатик».
02.11.2006.
«СОФТПРОМ» стала дистрибьютором компании «ИНФОРМАТИК»
12.12.2005.
Выход новой версии электронных словарей КОНТЕКСТ 7.0.
20.04.2005.
Открылся собственный интернет-магазин компании «Информатик» на базе платформы SoftKey.
28.09.2004.
Договор с компанией «МедиаХауз».
27.09.2004.
Выход новой версии электронных словарей КОНТЕКСТ 6.0.
18.05.2004.
Выход новой восьмой версии системы ОРФО 2004.
22.12.2003.
Договор с корпорацией Microsoft