Семинар «Русская философия». Заседание 79 | LOSEV-LIBRARY.RU

Бюллетень. Выпуск пятнадцатый. Культурная и научная жизнь «Дома А.Ф. Лосева»

Семинар «Русская философия».
Заседание № 79 (10 ноября 2011 г.)

Докладчик: Сергей Хамзеевич Ляпин (Архангельский областной краеведческий музей, ООО «Константа», г. Архангельск).

Тема: Тексты, контексты, концепты. Использование современных систем полнотекстового поиска для исследования произведений русских философов.

Председательствующий: В. П. Троицкий.

Участвовали: Визгин В. П., Виноградова Е. Б., Демидов С. С., Жаданова В. В., Зайцев О. Ю., Иванова Е. В., Ильина В. В., Колеров М. А., Мошковская Т. В., Нагибина Е., Перт О. Ю., Петрикова Н. Б., Петрова Т. К., Поляков М. Н., Резниченко А. И., Рожнов В. С., Соловьева Т. И., Фони Д., Фролкина Н. А., Хаевская Т. С., Цуева Л. В., Чепуренко Т. В., Шелякин О. В., Щербаков Ю. А., Всего: 24 человека.

Перед началом семинарского заседания известный историк и издатель, главный редактор информационного агентства «REGNUM» Модест Алексеевич Колеров передал в дар Библиотеке «Дом А. Ф. Лосева» приобретенную им рукопись неизвестной работы Д. А. Чижевского — машинопись (с авторской правкой) книги о творчестве Гоголя. Работа была недавно обнаружена В. Янценом (Германия). Собравшимся было представлено также новое издание из серии «Исследования по истории русской мысли», выходящей под редакцией М. А. Колерова — монография Е. А. Прибытковой «Несвоевременный современник: философия права В. С. Соловьева» (М., 2011).

Тезисы доклада: Исключительное значение оригинального текста для философского исследования любого типа, вида и уровня — достаточно очевидная вещь. К традиционным техникам и методикам, основанным на «ручном» исследовании текстов, сегодня добавляются возможности компьютерного поиска по полнотекстовым ресурсам с различными формами презентации получаемых результатов. Сами эти исходные ресурсы могут существовать тоже в различных формах и форматах, и могут предполагать различные способы их обработки: от обычных файлов (создаваемых в каком-либо текстовом редакторе, с дальнейшим использованием поисковых средств этого редактора, как правило, достаточно примитивных) до специализированных полнотекстовых баз данных и соответствующих мощных программных инструментов их обработки. Нам кажется целесообразным и перспективным использование для целей автоматизированного исследования текстов еще и такого универсального инструмента, как многофункциональная электронная полнотекстовая библиотека. Она может использоваться как для решения задач информационной поддержки научно-образовательной и культурно-просветительской деятельности (как и всякая библиотека), так и иметь в своем арсенале функциональные модули и опции, позволяющие использовать ее для продвинутой компьютерной обработки текстов.

Работы в этом направлении были начаты нами в середине 1990-х годов в рамках деятельности научно-информационного и инжинирингового центра «Центроконцепт» Поморского государственного университета (Архангельск), а затем продолжены в рамках различных проектов и деятельности различных организаций. В докладе демонстрируются возможности такого подхода на примере информационной системы T-Libra (разработка ООО «Константа», Архангельск), установленной в нескольких организациях России и Украины, в том числе в Библиотеке «Дом А. Ф. Лосева».

1. Полнотекстовый поиск в многофункциональной электронной библиотеке (на базе ИС T-Libra 6.х). В существующей сегодня версии электронной библиотеки (на базе T-Libra 6.6.х) имеются следующие возможности полнотекстового поиска:

а) абзацно-ориентированный: поиск по выбранной совокупности ресурсов с учетом словоизменительной парадигматики поисковых терминов и представление его результатов в виде списка абзацев полнотекстовых документов, удовлетворяющих условиям запроса;

б) частотно-ориентированный: поиск по выбранной совокупности ресурсов и представление результата в виде частотно-ранжированного списка существительных («терминограмм») с учетом их словоизменительной парадигматики.

1.1. Абзацно-ориентированный поиск предназначен для поиска и презентации фрагментов текста с точностью до отдельных авторских абзацев, содержащих заданную пользователем терминологическую структуру (тем самым эксплицируется «горизонтальный» микроконтекст, в котором в составе абзаца находятся искомые термины). Обеспечивается поддержка нескольких видов и различных форм презентации результатов этого поиска. Отметим некоторые из них.

Простой («однослойный») тематический поиск, с одним комплексным полем для ввода терминов и использованием для этих терминов операторов логического объединения, обязательного исключения термина (знак «минус» перед термином) или обязательного включения термина (знак «плюс» перед термином) в запросе. Это поле функционирует аналогично стандартному поисковому полю в глобальных поисковых системах (Яндекс, Google и т. п.). Результатом поиска является список абзацев, удовлетворяющих заданным условиям. Например, при запросе +ломоносов +университет наука будут найдены все абзацы, где обязательно есть термины «ломоносов» и «университет», но может быть (а может и не быть) термин «наука».

Многослойный тематический поиск, с несколькими полями («слоями») и дополнительными изменяемыми параметрами тематической фокусировки запроса. Поле «слой» представляет собой технический инструмент для выделения того или иного содержательного аспекта интересующей пользователя темы; всего может быть сформировано от 2 до 8 слоев. Между слоями действует операция логического пересечения; внутри слоя — операция логического объединения заданных терминов. Имеется возможность комбинировать актуально используемые слои, например, из трех слоев сделать один обязательным («кликнув» мышкой и поставив в соответствующем поле формы запроса «галочку»), а два других — произвольно выбираемыми при осуществлении запроса.

Тематическая фокусировка запроса достигается за счет выполнения дополнительных условий при его формировании: а) указания минимально необходимого количества слоев (от 2 до 8); б) указания максимального расстояния между терминами, принадлежащими разным слоям: от 0, когда слова из двух разных слоев запроса в составе абзаца примыкают друг к другу, до произвольной величины. Практически не имеет смысла задавать число больше 100. Этот вид запроса может быть рассмотрен также как поиск с использованием квази-тезауруса, создаваемого пользователем ad hoc («специально для данного случая») с помощью настроек параметров запроса.

1.2. Частотно-ориентированный поиск предназначен для экспликации различных «вертикальных» контекстов (макроконтекстов), неявно присутствующих в отдельном документе, выбранном подмножестве документов или полнотекстовой базе данных в целом, и построения соответствующих частотно-ранжированных списков терминов (существительных), которые мы называем «терминограммами». Обеспечивается поддержка четырех видов этого поиска и различных форм презентации его результатов:

  • абсолютный частотный, результатом которого является частотно-ранжированный список существительных, приведенных к нормальной форме и входящих в ресурсы области поиска;

  • относительный частотный, результатом которого является частотно-ранжированный список существительных, входящих только в те абзацы ресурсов области поиска, которые содержат заданный пользователем термин (тем самым список строится «относительно» этого термина);

  • абсолютный сравнительный частотный, результатом которого являются отображаемые в одном окне два (или три) частотно-ранжированных списка существительных, входящих соответственно в две (или три) выбранные пользователем области поиска;

  • относительный сравнительный частотный, результатом которого являются отображаемые в одном окне два (или три) частотно-ранжированных списка существительных «относительно» выбранного опорного термина и входящих соответственно в две (или три) выбранные пользователем области поиска. Все термины, входящие в итоговую терминограмму, являются активными; «кликнув» по любому из них, можно сразу выйти на сформированный абзацно-ориентированный запрос по данному термину.

Эти виды частотного поиска могут использоваться для текстологического анализа (например, сравнения терминограмм двух или большего числа документов и т. п.), для предварительной экспликации предметной области, определения ключевых слов, отбора терминов для тезаурусов, проверки на плагиат и т. п.

1.3. Дополнительные возможности поиска и презентации его результатов:

  • осуществляемая пользователем оценка релевантности результатов абзацно-ориентированного запроса;

  • автоматическая сборка релевантных результатов запроса (т. е. тематической подборки абзацев) в один файл, с последующим его сохранением на компьютере пользователя или на переносимом хранилище данных (диске, флэшке);

  • репрезентация депозитарных (файловых) представлений документа, содержащего найденный абзац текста (при наличии у пользователя соответствующих прав на доступ);

  • отображение графического оригинала («имиджа») страницы текстового ресурса, содержащей найденный абзац текста (при условии предварительного постраничного импорта графического представления ресурса);

  • формирование «личного хранилища» ресурсов пользователя, отобранных пользователем с помощью инструментов T-Libra для дальнейшей более удобной и эффективной работы (в том числе для включения целиком хранилищ в полнотекстовый поиск).

2. Вышеназванные возможности поиска демонстрируются в докладе на примере подготовки информационных ресурсов на тему «Проблема факта в русской философии (Н. А. Бердяев)». Эти тематические «полуфабрикаты» можно в дальнейшем использовать для подготовки статей, лекций, диссертаций, научных монографий.

Исследование ведется на авторской базе данных, включающих около 1500 полнотекстовых ресурсов (книг, отдельных статей и сборников статей, энциклопедических статей гуманитарной направленности), в том числе около 500 ресурсов по философии (на русском и немецком языках); в их числе около 120 произведений представителей русской философии, в том числе 30 произведений Н. А. Бердяева (книги, сборники статей, отдельные статьи), взятых из открытых ресурсов Интернет или оцифрованных нами в рамках различных проектов.

Предварительный абзацно-ориентированный поиск по термину «факт» дал такие результаты: по всей базе данных этот термин используется в 686 документах, в 8069 абзацах; по произведениям Н. А. Бердяева — в 24 документах, в 214 абзацах.

Предварительный частотно-ориентированный поиск относительно термина «факт» дал такие результаты: в 24 произведениях Н. А. Бердяева термин, с учетом словоизменительной парадигматики, встретился 366 раз (частота в промилле 3, 024). Для сравнения: в 6 произведениях А. Ф. Лосева 369 раз (частота в промилле 6, 792); в 5 произведениях И. Канта, включая все три «Критики», 48 раз (частота в промилле 5, 456).

Для этих же авторов и произведений наиболее частотными существительными являются (результаты абсолютного частотного поиска): у Н. А. Бердяева — «человек» 11287 раз (частота в промилле 7, 131); у А. Ф. Лосева — «слово» 964 раза (частота в промилле 2, 260); у И. Канта — «понятие» 3282 раза (частота в промилле 7, 225).

Далее в докладе показано, как можно эксплицировать терминологические поля в составе авторских абзацев в различных произведениях Н. А. Бердяева и проводить более детальный анализ этих линейных микроконтекстов, включающих в себя термин «факт» и его лингвистические производные («фактически», «фактический», «фактуальный» и т. д.) и концептуальные синонимы («эмпирический», «опытный», «наглядный» и т. д.). Этот анализ, основанный на абзацно-ориентированных запросах, дополняется поиском по другим терминам, выявляющим разные аспекты темы исследования («опыт», «предметность», «закон», «теория», «принцип», «сознание», «познание», «свобода», «творчество», «история».

Другие аспекты проблематики выявляются с помощью частотно-ориентированных запросов. Например, можно выявить смысловую окрестность, в которой употребляется термин «факт» и как в целом по корпусу работ Н. А. Бердяева, так и в конкретных его произведениях. В частности, для всего корпуса исследуемых работ в ближайшую окрестность «факта» (определяемую по частотности и в том подмножестве абзацев, где обязательно встречается термин «факт») попадают: «сознание», «свобода», «философия», «история».

Для сравнения: у А. Ф. Лосева это будет «сущность», «слово», «смысл», «эйдос»; у И. Канта: «разум», «понятие», «закон», «предмет». Даже этот простой сравнительный текстологический — а для нас и в целом предварительный — анализ показывает специфику проблемно-тематических пространств, в которых категория «факт» понимается и используется разными философами. Это многое говорит не только об указанных философах, но и о проблеме факта как универсальной категории и общекультурном концепте.

3. О концептологических моделях культурных формообразований для создания концепт-ориентированных поисковых систем (на примере общекультурного феномена «факт»). В заключение кратко рассматривается один из возможных подходов, развивающих тему экспликации смысловых контекстов различных философских и общекультурных феноменов. Это делается на примере общекультурного феномена «факт» и в рамках развиваемой нами с конца 1980-х годов общей теории концептов («концептологии»). На языке концептов формулируется обобщенная модель (концептологическая формула) факта, обсуждаются возможности редукции ее к различным терминологическим кластерам для разработки соответствующих поисковых тезаурусов с целью включения последних в концепт-ориентированные полнотекстовые запросы.

В этом направлении сегодня ведутся разработки соответствующих функциональных модулей информационной системы T-Libra для создания многофункциональных электронных полнотекстовых библиотек.

Из вопросов и обсуждений: 1. Докладчик ответил на многочисленные вопросы слушателей о непосредственном применении системы T-Libra (работа с разными цифровыми форматами текстов, учет особенностей сложных шрифтов, применение терминограмм для составления предметных указателей и библиографических описаний). 2. Как положительный пример, С. Х. Ляпин назвал использование своей поисковой системы в творческом взаимодействии с С. С. Неретиной (ИФ РАН) для анализа «смысловых окрестностей» понятия «концепт» в работах Фомы Аквинского и других философов его времени. 3. Были показаны также возможности аппарата терминограмм в задачах по выявлению той или иной преемственности в философских учениях (алгоритмы обработки T-Libra позволяют рассматривать одни тексты как бы «сквозь» другие), а также для установления или подтверждения фактов плагиата.

К содержанию Бюллетеня

Культурная и научная жизнь «Дома А.Ф. Лосева»

Семинар «Русская философия». Хроника: октябрь 2011 — апрель 2012 г.

Вы можете скачать Пятнадцатый выпуск Бюллетеня /ЗДЕСЬ/







'







osd.ru




Instagram