тексты и контексты | LOSEV-LIBRARY.RU

Тексты, контексты, концепты.

Использование современных систем полнотекстового поиска
для философских исследований (на материале русской философии).

Ляпин Сергей Хамзеевич,
к.ф.н., зав. отделом информационных технологий
Архангельского областного краеведческого музея,
ген. директор ООО «Константа»
lyapins@yandex.ru

Аннотация. В докладе формулируется новый подход к выявлению и изучению различных смысловых контекстов в философских текстах на основе полнотекстового поиска по соответствующим базам данных. Обосновывается целесообразность и возможность использования для этого такого универсального инструмента, как многофункциональная электронная полнотекстовая библиотека. Демонстрируются возможности такого подхода на примере информационной системы T-Libra (разработка ООО «Константа», Архангельск), установленной в нескольких организациях России и Украины, в том числе в библиотеке истории русской философии и культуры «Дом А.Ф.Лосева» (Москва). Рассматриваются также вопросы построения концептологических моделей различных философских и общекультурных формообразований (например, «факта») с целью их дальнейшей адаптации к задачам концепт-ориентированного полнотекстового поиска.

Введение.

Исключительное значение оригинального философского текста для философского исследования любого типа, вида и уровня – достаточно очевидная вещь. К традиционным техникам и методикам, основанным на «ручном» исследовании текстов, сегодня добавляются возможности компьютерного поиска по полнотекстовым ресурсам с различными формами презентации получаемых результатов.

Сами эти исходные ресурсы могут существовать тоже в различных формах и форматах, и могут предполагать различные способы их обработки: от обычных файлов (создаваемых в каком-либо текстовом редакторе, с дальнейшим использованием поисковых средств этого редактора, как правило, достаточно примитивных) до специализированных полнотекстовых баз данных и соответствующих мощных программных инструментов их обработки.

Нам кажется целесообразным и перспективным использование для целей автоматизированного исследования текстов еще и такого универсального инструмента, как многофункциональная электронная полнотекстовая библиотека. Она может использоваться как для решения задач информационной поддержки научно-образовательной и культурно-просветительской деятельности (как и всякая библиотека), и вместе с тем иметь в своем арсенале функциональные модули и опции, позволяющие использовать ее для продвинутой компьютерной обработки текстов.

Работы в этом направлении были начаты нами в середине 1990-х годов в рамках деятельности научно-информационного и инжинирингового центра «Центроконцепт» Поморского государственного университета (Архангельск), и затем продолжены в рамках различных проектов и деятельности различных организаций.

В докладе демонстрируются возможности такого подхода на примере информационной системы T-Libra (разработка ООО «Константа», Архангельск, demo.tlibra.ru ), установленной в нескольких организациях России и Украины, в том числе в библиотеке истории русской истории и культуры «Дом А.Ф.Лосева» (Москва).

1. Полнотекстовый поиск в многофункциональной электронной библиотеке (на базе ИС T-Libra 6.х).

В существующей сегодня версии электронной библиотеки (на базе T-Libra 6.6.х) имеются следующие возможности полнотекстового поиска, используемые для целей доклада:

а) абзацно-ориентированный: поиск по выбранной совокупности ресурсов с учетом словоизменительной парадигматики поисковых терминов и представление его результатов в виде списка абзацев полнотекстовых документов, удовлетворяющих условиям запроса;

б) частотно-ориентированный: поиск по выбранной совокупности ресурсов и представление результата в виде частотно-ранжированного списка существительных («терминограмм»), с учетом их словоизменительной парадигматики.

1.1. Абзацно-ориентированный поиск предназначен для поиска и презентации фрагментов текста с точностью до отдельных авторских абзацев, содержащих заданную пользователем терминологическую структуру (тем самым эксплицируется «горизонтальный» микроконтекст, в котором в составе абзаца находятся искомые термины). Обеспечивается поддержка нескольких видов и различных форм презентации результатов этого поиска. Отметим некоторые из них.

Простой («однослойный») тематический поиск, с одним комплексным полем для ввода терминов и использованием для этих терминов операторов логического объединения, обязательного исключения термина (знак «минус» перед термином) или обязательного включения термина (знак «плюс» перед термином) в запрос. Это поле функционирует аналогично стандартному поисковому полю в глобальных поисковых системах (Яндекс, Google и т.п.). Результатом поиска является список абзацев, удовлетворяющих заданным условиям.

Например, при запросе +ломоносов +университет наука будут найдены все абзацы, где обязательно есть термины "ломоносов" и "университет", но может быть (а может и не быть) и термин "наука".

Многослойный тематический поиск, с несколькими полями («слоями») и дополнительными изменяемыми параметрами тематической фокусировки запроса.

Поле "слой" представляет собой технический инструмент для выделения того или иного содержательного "аспекта" интересующей пользователя "темы"; всего может быть сформировано от 2 до 8 слоев. Между слоями действует операция логического пересечения; внутри слоя – операция логического объединения заданных терминов. Имеется возможность комбинировать актуально используемые слои, например, из трех слоев сделать один обязательным ("кликнув" мышкой и поставив в соответствующем поле формы запроса "галочку"), а два других – произвольно выбираемыми при осуществлении запроса.

Тематическая фокусировка запроса достигается за счет выполнения дополнительных условий при его формировании: а) указания минимально необходимого количества слоев (от 2 до 8); б) указания максимального расстояния между терминами, принадлежащими разным слоям: от 0, когда слова из двух разных слоев запроса в составе абзаца примыкают друг к другу, до произвольной величины. Практически не имеет смысла задавать число больше 100.

Замечание. Этот вид запроса может быть рассмотрен также как поиск с использованием квази-тезауруса, создаваемого пользователем ad hoc ("специально для данного случая") с помощью настроек параметров запроса.

1.2. Частотно-ориентированный поиск предназначен для экспликации различных «вертикальных» контекстов (макроконтекстов), неявно присутствующих в отдельном документе, выбранном подмножестве документов или полнотекстовой базе данных в целом, и построения соответствующих частотно-ранжированных списков терминов (существительных), мы называем их «терминограммами». Обеспечивается поддержка четырех видов этого поиска и различных форм презентации его результатов:

- абсолютный частотный, результатом которого является частотно-ранжированный список существительных, приведенных к нормальной форме и входящих в ресурсы области поиска;

- относительный частотный, результатом которого является частотно-ранжированный список существительных, входящих только в те абзацы ресурсов области поиска, которые содержат заданный пользователем термин (тем самым список строится «относительно» этого термина);

- абсолютный сравнительный частотный, результатом которого являются отображаемые в одном окне два (или три) частотно-ранжированных списка существительных, входящих соответственно в две (или три) выбранные пользователем области поиска;

- относительный сравнительный частотный, результатом которого являются отображаемые в одном окне два (или три) частотно-ранжированных списка существительных «относительно» выбранного опорного термина и входящих соответственно в две (или три) выбранные пользователем области поиска.

Все термины, входящие в итоговую «терминограмму», являются активными; «кликнув» по любому из них, можно сразу выйти на сформированный абзацно-ориентированный запрос по данному термину.

Эти виды частотного поиска могут использоваться для текстологического анализа (например, сравнения терминограмм двух или большего числа документов и т.п.), для предварительной экспликации предметной области, определения ключевых слов, отбора терминов для тезаурусов, проверки на плагиат и т.п.

1.3. Дополнительные возможности поиска и презентации его результатов.

- Осуществляемая пользователем оценка релевантности результатов абзацно-ориентированного запроса;

- автоматическая сборка релевантных результатов запроса (т.е. тематической подборки абзацев) в один файл, с последующим его сохранением на компьютере пользователя или на переносимом хранилище данных (диске, флэшке).

- репрезентация депозитарных (файловых) представлений документа, содержащего найденный абзац текста (при наличии у пользователя соответствующих прав на доступ).

- Отображение графического оригинала («имиджа») страницы текстового ресурса, содержащей найденный абзац текста (при условии предварительного постраничного импорта графического представления ресурса).

- формирование «личного хранилища» ресурсов пользователя, отобранных пользователем с помощью инструментов T-Libra для дальнейшей более удобной и эффективной работы (в том числе для включения целиком хранилищ в полнотекстовый поиск).

2. Экспликации тематических контекстов русской философии (Н.А.Бердяев).

Вышеназванные возможности поиска демонстрируются в докладе на примере подготовки информационных ресурсов на тему «Проблема факта в русской философии (Н.А.Бердяев)». Эти тематические «полуфабрикаты» можно в дальнейшем использовать для подготовки статей, лекций, диссертаций, научных монографий.

Исследование ведется на авторской базе данных, включающих около 1500 полнотекстовых ресурсов (книг, отдельных статей и сборников статей, энциклопедических статей гуманитарной направленности), в том числе около 500 ресурсов по философии (на русском и немецком языках); в их числе около 120 произведений представителей русской философии, в т.ч. 30 произведений Н.А.Бердяева (книги, сборники статей, отдельные статьи), взятых из открытых ресурсов Интернет или оцифрованных нами в рамках различных проектов.

Предварительный абзацно-ориентированный поиск по термину «факт» дал такие результаты: по всей базе данных этот термин используется в 686 документах, в 8069 абзацах; по произведениям Н.А. Бердяева – в 24 документах, в 214 абзацах.

Предварительный частотно-ориентированный поиск относительно термина «факт» дал такие результаты: в 24 произведениях Н.А. Бердяева термин, с учетом словоизменительной парадигматики, встретился 366 раз (частота в промилле 3, 024). Для сравнения: в 6 произведениях А.Ф.Лосева 369 раз (частота в промилле 6, 792); в 5 произведениях И. Канта, включая все три «Критики», 48 раз (частота в промилле 5, 456).

Примечание. Для этих же авторов и произведений наиболее частотными существительными являются (результаты абсолютного частотного поиска): у Н.А.Бердяева – «человек» 11287 раз (частота в промилле 7, 131); у А.Ф.Лосева – «слово» 964 раза (частота в промилле 2, 260); у И.Канта – «понятие» 3282 раза (частота в промилле 7, 225).

Далее в докладе показано, как можно эксплицировать терминологические поля в составе авторских абзацев в различных произведениях Н.А.Бердяева и проводить более детальный анализ этих линейных микроконтекстов, включающих в себя термин «факт» и его лингвистические производные («фактически», «фактический», «фактуальный» и т.д. и концептуальные синонимы («эмпирический», «опытный», «наглядный», и т.д.). Этот анализ, основанный на абзацно-ориентированных запросах, дополняется поиском по другим терминам, выявляющим разные аспекты темы исследования («опыт», «предметность», «закон», «теория», «принцип», «сознание», «познание», «свобода», «творчество», «история».

Другие аспекты проблематики выявляются с помощью частотно-ориентированных запросов. Например, можно выявить смысловую окрестность, в которой употребляется термин «факт» – как в целом по корпусу работ Н.А. Бердяева, так и в конкретных его произведениях. В частности, для всего корпуса исследуемых работ в ближайшую окрестность «факта» (определяемую по частотности и в том подмножестве абзацев, где обязательно встречается термин «факт») попадают: «сознание», «свобода», «философия», история».

Для сравнения: у А.Ф.Лосева это будет «сущность», «слово», «смысл», «эйдос»; у И. Канта: «разум», «понятие», «закон», «предмет». Даже этот простой сравнительный текстологический – а для нас и в целом предварительный – анализ показывает специфику проблемно-тематических пространств, в которых категория «факт» понимается и используется разными философами. Это многое говорит не только об этих философах – но и о проблеме факта как универсальной категории и общекультурном концепте.

3. Заключение. Концепты и концептология. Концептологические модели культурных формообразований для создания концепт-ориентированных поисковых систем (на примере общекультурного феномена «факт»).

В заключении кратко рассматривается один из возможных подходов, развивающих тему экспликации смысловых контекстов различных философских и общекультурных феноменов. Это делается на примере общекультурного феномена «факт» и в рамках развиваемой нами с конца 1980-х годов общей теории концептов («концептологии»).

На языке концептов формулируется обобщенная модель (концептологическая формула) факта, обсуждаются возможности редукции ее к различным терминологическим кластерам для разработки соответствующих поисковых тезаурусов - с целью включения последних в концепт-ориентированные полнотекстовые запросы.

В этом направлении сегодня ведутся разработки соответствующих функциональных модулей информационной системы T-Libra для создания многофункциональных электронных полнотекстовых библиотек.







'







osd.ru




Instagram