Пробуждение историка-профессионала (из дневниковых записей автора)

Text

Das Buch ist auf Russisch

Autor:Владимир Никифорович Сидорцов

Kritiken

iOSAndroidWindows Phone

Wohin soll der Link zur App geschickt werden?

Schließen Sie dieses Fenster erst, wenn Sie den Code auf Ihrem Mobilgerät eingegeben haben

Erneut versuchenLink gesendet

Online lesen

FB2ZIP-Archiv 2,6 MBGeeignet für Smartphones, Android-Tablets, E-Reader (außer Kindle) und viele Programme

EPUB3,6 MBGeeignet für iOS-Geräte (iPhone, iPad, iMac) und die meisten Lese-Apps

Für Computer geeignet

TXTZIP-Archiv 141 KBKann auf jedem Computer geöffnet werden

RTFZIP-Archiv 2,9 MBKann auf jedem Computer geöffnet werden

PDF A43,2 MBKann über den Adobe Reader geöffnet werden

Für Geräte

MOBI2,4 MBGeeignet für Kindle E-Reader und Android Apps

iOS.EPUB2,7 MBIdeal für iPhone und iPad

PDF A63,4 MBOptimiert und geeignet für Smartphones

Andere

FB32,6 MBEntwicklung des FB2-Formats

TXT382 KBKann auf fast jedem Gerät geöffnet werden

Als gelesen kennzeichnen

Schriftart:Kleiner AaGrößer Aa

Лекция 4. Принципы исторического исследования 36

Потребность в основополагающих принципах научного исследовании 36

Принципы исторического исследования: объективность 38

Принципы исторического исследования: историзм 62

Принципы исторического исследования: системность … 63

Принципы исторического исследования: ценности в истории 67

Лекция 3. Структура исторического исследования 69

Понимание структуры исследования ...... .... .... 69

Исторический источник в свете методологии 71

Научный факт 73

Уровни исследования ..... 75

Организация и представление исторического знания 77

Понятийно-категориальный аппарат исторической науки 78

Описание результатов исследования 81

Часть II. МЕТОДЫ 83

Лекция 6. Традиционные методы исторического познания 83

Классификация методов 83

Обращение к общелогическим методам 84

Использование общенаучных методов 85

Традиционные специально-исторические методы 88

Применение методов, их недостаточность 93

Лекция 7. Количественные методы в историческом исследовании 96

Общая характеристика. Место и роль количественных методов

в историческом познании 96

Измерение количественных и качественных признаков исторических

объектов ......... .... 98

Моделирование исторических событий и явлений 102

Многомерный статистический анализ 102

Использование информационных технологий 106

Лекция 8. Психоисторические методы 109

Психоистория и ее особенности 109

Психологические методы, их значение в историографии 111

Использование методов в целях понимания исторических явлений 113

Лекция 9. Герменевтика и лингвистика: методы понимания текста 118

Язык – не только средство общения 118

Лингвистический поворот в мировой историографии 122

Герменевтика – искусство толкования текстов 124

Появление лингвистики дискурса на смену лингвистики текста 126

Анализ дискурса как реконструкция социального контекста 129

Лекция 10. Методы семиотики, искусствоведческий анализ в социальной

истории 133

Назначение семиотики 133

Порядок семиотического анализа 136

Применение семиотического подхода 137

Искусствоведческий анализ в социальной истории 146

Лекция 11. Методология и социальные науки 151

Взаимодействие истории и социальных наук 151

Социологические методы в историографии 153

Использование методов экономической науки 157

Методы политологии на службе у истории 159

Часть III. ПРАКТИКУМ 165

Занятие 1. Традиционные специально-исторические методы научного

познания 165

Занятие 2. Математико-статистнческие методы исторического

исследования 167

Занятие 3. Лингвистические методы исторического исследования.

Дискурс-анализ .... 177

Занятие 4. Междисциплинарность в историческом познании (форум-1) .– 184

Занятие 5. Социокультурные измерения истории (форум-2) 191

ЛИТЕРАТУРА 193

№ 4 Информационное обеспечение нетрадиционный методов исторического исследования (контент-анализ, психолингвистический, дискурс анализ)^[20]

КОМПЬЮТЕРНАЯ РЕАЛИЗАЦИЯ КОНТЕНТ-АНАЛИЗА

В конце 1950-х гг. в практике содержательного анализа текста началась эра использования информационных систем. Стали выходить академические журналы, страницы которых были заполнены сообщениями о применении компьютеров при анализе источников личностного происхождения. Их авторами были социологи и психологи. Развитие программного обеспечения стимулировало появление новых направлений в познании настоящего и прошлого: информационный поиск, информационные системы, вычислительная стилистика, компьютерная лингвистика, технология обработки текста, компьютерный контент-анализ.

Начало компьютеризации методик контент-аналитического исследования связано с работой исследователей Массачусетского технологического института. Там появился «универсальный анализатор» (The General Inquirer) – комплекс компьютерных программ анализа текстовых материалов, посредством которого можно подсчитывать частоты категорий (ключевых слов) содержания текста, а также проводить на их основе индексацию текста.

Использование компьютерных программ в ходе реализации контент-анализа наделило этот метод явным преимуществом, заключающимся в быстроте и надежности получения данных по сравнению с обычным анализом, выполняемым кодировщиками. Трудоемкость составления программы окупалась огромным объемом информации, который анализируется на компьютере, а также фактом замены кодировщика специалистом-предметником.

В настоящее время разработано немало автоматизированных систем анализа текста, преследующих цели и имеющих возможности обработки содержания. В этих системах происходит изучение текста на морфологическом, синтаксическом, семантическом уровнях. Системы позволяют производить частотный анализ слов текста; составлять алфавитные списки ключевых слов по технологиям KWIC и KWOC; расставлять перекрестные ссылки; осуществлять компрессию текста и др. Объектом анализа могут быть как вербальные (текстовые), так и невербальные источники (аудиозаписи, видеофильмы, графическая реклама и т. д.).

На начальном уровне обработки текста происходит расширение поля работы компьютерной системы за счет включения в него операций по определению слов, предложений, абзацев, заголовков и др. Более того, система производит обработку текста, представленного в неструктурированной и слабоструктурированной форме (нарративные источники).

При распознавании текста источника осуществляется морфологический анализ, обеспечивающий приведение к нормальной форме всех словоформ текста. Под этим приведением нами понимается замена имеющихся лексем на первоначальную основу, обозначенную в морфологическом словаре (грамматическом словаре А. А. Зализняка и др.). Затем из общего числа лексем система удаляет стопслова (шумовые слова), т. е. слова, не несущие какой-либо самостоятельной смысловой нагрузки.

В научной литературе, посвященной лингвистике, стоп-слова в большинстве случаев относят к служебным словам. Эти слова служат для выражения отношений между явлениями действительности, которые названы знаменательными словами. В силу этого служебные слова употребляются в речи только в соединении со знаменательными (полнозначными) словами. Не обладая номинативной функцией, служебные слова не являются членами предложения, а используются как формально-грамматические средства языка: предлоги выступают в подчинительных словосочетаниях, союзы – при однородных членах и в сложных предложениях, частицы – при отдельных словах и в вопросительных и восклицательных предложениях.

На морфологическом этапе анализа текста система убирает из общего массива слов все имеющиеся в тексте аббревиатуры, словасокращения, цифры (нумерацию списков, даты и др.). После этого подключаемый к системе словарь устойчивых словосочетаний (фразеологизмов) и метафор позволяет пользователю выделить в одну смысловую единицу все встречаемые в тексте идиомы, метафорические компоненты. Эта операция необходима для проведения дальнейшего анализа текста по максимально эффективному алгоритму вычленения из него полнозначных смысловых единиц.

Довольно трудоемкой задачей при компьютерной реализации метода контент-анализа является решение проблемы анафорических ссылок, т. е. местоимений, указывающих на объект, ранее поименованный в тексте. В лингвистике эти ссылки относят к языковым повторам со своим видовым различием (фонетическая, лексическая, синтаксическая, строфическая анафора), а также комбинациям более редким, чем анафора, эпифора. Эта проблема решается путем сведения анафоры к обозначающему ее объекту (замены в тексте местоимений словами).

Основной задачей в компьютерном контент-анализе является составление перечня частотно распределенных смысловых единиц текста. В качестве смысловой единицы выступает мысль, причем в самом широком выражении (концепция, представление, взгляд и пр.). В качестве основной, базовой единицы физического носителя смысла выступает слово (словосочетание), но обязательно в контексте.

Составление частотного перечня ключевых слов в компьютерном анализе текста – довольна сложная задача, так как из всего разнообразия лексем текста нужно выбрать то, что объединено одним смыслом. В силу ряда обстоятельств, таких как синонимия, омонимия и др., выполнение этой задачи невозможно без обращения к семантическим словарям. Действуют в этом случае следующим образом. Имеющийся первоначальный частотный перечень всех слов текста сканируется программой с целью нахождения синонимичных единиц. После определения их смыслового происхождения (сравнения контекста слов всей синонимичной группы) выбирается общая форма смыслового значения, а именно дескриптор, обладающий свойствами всех найденных в тексте синонимов.

Затем после подтверждения смысловой близости дескрипторов (ключевых слов) они объединяются в группу общей (наиболее упоминаемой) единицы перечня с учетом их частотного показателя. Особенно полезным при решении проблемы синонимии является проведение синтаксического анализа текста.

Синтаксический анализ – самая сложная операция в анализе текста. Здесь необходимо определить роль слов и их связи между собой. Результатом действия должен быть набор разветвлений, показывающих такие связи. Выполнение задачи осложняется огромным количеством возникающих альтернативных вариантов, связанных как с многозначностью входных данных (одна и та же словоформа может быть получена от различных нормальных форм), так и неоднозначностью самих правил разбора. Но, несмотря на трудности, исследователи, проводящие синтаксический анализ, способны определить уровень отношения синонимичного слова к ключевым словам и тем самым перед началом выполнения статистического действия помочь системе отбросить варианты слабо связанных по смыслу (контексту) слов.

Схожей с проблемой синонимии в компьютерном анализе текста является проблема омонимии, являющаяся вместе с полисемией (многозначностью) нарушением языковых связей слов в тексте. В лингвистике эти явления принято считать асимметрией текста, т. е. нарушением регулярности смысловых связей лексем. Данная проблема, как и предыдущая, решается путем обращения к словарю омонимов, а также использования лингвистического алгоритма обработки омонимов.

После выполнения вышеобозначенных процедур система составляет новый список частотного распределения слов в тексте с указанием их частоты (общее число упоминаний) и удельного веса (занимаемый объем в тексте). Полученный список позволяет подняться на второй уровень компьютерной реализации контент-анализа. Он связан со статистическим изучением текста. Полученный частотный список слов представляет их обычное линейное распределение, необходимое при решении простейших исследовательских задач. На деле большинство систем статистического (качественно-количественного) анализа текста могут быть представлены разветвленным, многоступенчатым распределением. Его выбор производится в зависимости от сложности поставленных исследователем задач и порядка проверки математическими методами им же выдвинутых гипотез.

При создании частотного перечня слов речь идет о таком специфическом объекте, как «частотное распределение», имеющее самостоятельное значение. Другими словами, речь идет о том, как часто тот или иной признак, выступающий самостоятельно, проявляется в статистическом поле. При этом в качестве признака может выступать какой-либо физический носитель. Им может быть:

любое отдельное слово (полнозначное);

словосочетание, т. е. слова, которые непосредственно следуют друг за другом;

словосочетание, разделенное другими словами, или разделенное каким-то текстовым пространством;

смысловая характеристика, выраженная сложным ансамблем распределенных каким-либо образом слов в тексте, объединенных общей доминантой (центральным понятием, абзацем, предложением).

Частотное выражение признака позволяет исследователю определить значение составленного «частотного распределения». Это важно для определения в дальнейшем тесноты связи между отдельными смысловыми единицами (генерируется автоматически или путем создания пользовательского запроса).

Эта теснота связи достигается путем использования в системах статистических методов или статистических зависимостей полного или неполного статистического аппарата. Например, при использовании простого парного распределения или корреляции в ее различных видах парные распределения позволяют определить, в какой мере интересующий исследователя признак присутствует или отсутствует в рассматриваемом объекте, а корреляция – установить, насколько значение одного признака зависит от появления в тексте другого признака.

Фактически можно утверждать, что корреляционная зависимость в частотном списке по сути представляет собой степень распределения одного из признаков в другом объекте, а метод парного распределения связан с наличием взаимосвязи признаков между двумя объектами. При этом природа двойных связей разная, но чаще всего речь идет о том, каким образом признак z объекта Q распределен в объекте X, или же как связано частотное распределение одного признака с частотным распределением другого признака. Парные распределения всегда осуществляются в системе трехобъектного взаимодействия, где взаимосвязь между любыми двумя объектами в обязательном порядке осуществляется в рамках любого третьего объекта как общего для них.

Полученный список частотного распределения слов в тексте является проекцией смыслового поля текстового содержания анализируемых документов. Научность данного утверждения подтверждается такими исследователями, как Т. Ван Дейк, Л. Я. Аверьянов, Г. Д. Лассуэл, Б. Берельсон, Ч. Осгуд, Р. К. Мертон, В. Е. Семенов, К. Криппендорф и др. Однако не следует считать, что полученный искусственный текст (смысловой портрет) позволяет исследователю сразу же ответить на вопрос о наличии между признаками причинноследственных связей. Дело в том, что контент-анализ лишь подводит исследователя к получению смыслового поля текста – правда, с указанием наличия связи между его отдельными значениями. Что же касается установления причинно-следственных связей, то эта задача решается путем обращения к KWIC-алгоритмов (алгоритмов составления конкорданса).

На завершающем уровне компьютерного контент-анализа частотный список слов текста может быть трансформирован в новый перечень, представляющий собой список понятийных (предметных) блоков, внутри которых в алфавитном порядке размещаются слова из предыдущего перечня с сохранением указанной их частоты и веса в тексте. При этом каждый блок получает свои информационные характеристики, представляющие сумму всех значений слов, вошедших в смысловое поле одного предмета. Эта возможность реализуется путем задействования в алгоритме обработки слов идеографического (семантического) словаря.

Все неологизмы, найденные в тексте, размещаются в отдельном блоке. Это необходимо для последующего ручного размещения слов в ту или иную предметную область. Если вес слов в тексте незначительный, то система может предложить пользователю удалить ненужные слова из перечня(очистить), что само по себе может быть обозначено в настройках программ.

Отметим, что возможность создания списка понятийного блока текста на основе семантического анализа позволяет уже на начальном уровне избежать интерпретационной стадии исследования ошибок, неизбежных в результате таких явлений, как ложная корреляция, субъективность исследователя в выборе признаков анализа и др.

Правильное использование компьютерного контент-анализа предполагает определение значимости частотного распределения одного признака относительно частотного распределения другого признака, что возможно реализовать только в рамках искусственно созданного понятийного пространства. Поэтому в качестве третьего объекта сопоставления в частотном распределении требуется более общее слово (объект, доминанта). Проведение полного компьютерного контентанализа пока невозможно. Поэтому на данном этапе следует руководствоваться следующими правилами определения смысловых связей слов в тексте, находящихся в одном понятийном пространстве:

изучаемые слова-понятия находятся в одном понятийном пространстве;

частотное проявление признаков в тексте достаточно велико;

во всех случаях анализа связи слов искать возможность парной взаимосвязи слов в остальных понятийных блоках текста.

Использования компьютерного контент-анализа в историческом исследовании

Процедура применения контент-анализа в качественно-количественном анализе текста нарративных источников, как видно из вышесказанного, усложнена из-за необходимости скрупулезного пересчета слов в тексте для их последующей статистической обработки. Поэтому долгое время контент-аналитические исследования проводились лишь социологами и политологами. Историки, при всем их трудолюбии, осуществляя анализ неструктурированных источников массового характера, пользовались лишь приемами описательного (выборочного) изучения, что само по себе приводило работу исследователей к выборочному, порой необоснованному, цитированию письменных событий-фактов. Однако в связи с введением в начале 1990-х гг. в исследовательскую практику контент-анализа компьютерного инструментария историк открыл для себя новые возможности изучения прошлого посредством раскрытия ранее неизвестного ему потенциала нарративных источников.

Стимулирующую роль в компьютерной реализации контент-анализа сыграли архивы машиночитаемых данных в виде отдельных документальных коллекций, созданных на кафедре исторической информатики МГУ им. М. В. Ломоносова, в лаборатории исторической и политической информатики при Пермском государственном национальном исследовательском университете, а также электронных библиотек научно-исследовательских работ исторического факультета БГУ.

Начавшийся компьютерный период контент-анализа позволил историку освободиться от таких рутинных, трудоемких операций, как составление списка всех слов текста с указанием их частот, поиск ключевых слов и выдача их на печать вместе с их окружением и др. Историку остается лишь подготовить цифровой вариант письменного источника и разместить его в функциональном массиве компьютерной системы. Вся остальная работа по проведению процедурных приемов контент-анализа осуществляется автоматически алгоритмами обработки текста.

Обратимся к ряду примеров и прежде всего к работе российского исследователя Р. В. Топки, осуществившей содержательный анализ 47 крестьянских наказов от южноукраинских губерний в I Государственную думу. Пример примечателен тем, что целью исследования было выяснение значения политического влияния этих наказов на крестьянское общественное сознание. В результате проведенной работы Р. В. Топке удалось на основании 461 признака выделить 34 смысловые категории с частотой встречаемости содержательных признаков от 4 до 24. Исследование показало четкое разделение категорий на две группы: крестьянских нужд и отношения крестьян к проводимой политике. Это выделение в структуре крестьянского сознания, по мнению Р. В. Топки, означало определенную обособленность политической проблематики от вопросов обыденной крестьянской жизни.

Интересно, что первоначально проведенный Р. П. Топкой семантический (ручной) контент-анализ не позволил найти ответ на вопрос о том, насколько политические требования, зафиксированные в наказах, были присущи крестьянству. Поэтому для решения задачи и был проведен компьютерный контент-анализ с использованием программной среды ТАСТ. В этой среде исследователь вычислила показатель «z-score», в дальнейшем используемый для определения силы связи дескрипторов (значимых слов), составляющих основные категории текста, со словами контекста. Компьютерный контент-анализ позволил Р. П. Топке определить, что наиболее значимыми политическими категориями для крестьян являлись требования амнистии и отмены смертной казни. Также было определено, что на составление наказов действительно влиял политический фактор, как опосредованно (публикация в периодической печати ответа Думы на тронную речь), так и прямо (агитационная литература, в частности, социал-демократов, из которой восприняты основные политические требования), что с сохранением местоположения категорий в тексте и насыщенности указывает на сильную зависимость между источником такого влияния и крестьянским наказом.

В следующем примере рассмотрен опыт компьютерного контент-аналитического исследования, проведенного московским историком А. Л. Кобринским. В качестве источника контент-анализа он использовал записи дебатов депутатов Государственной думы первого созыва. Основной причиной обращения к контент-анализу как методу изучения текста была специфика источников (большое количество единиц анализа и слабая структурированность элементов текста), не допускающая использования новых методик наряду с традиционными.

Для проведения содержательного анализа стенографических отчетов заседаний Государственной думы А. Л. Кобринский составил машиночитаемый корпус данных, представляющий единый файл и получивший условное название Great. Посредством утилиты MAKBAS, входящей в программный пакет ТАСТ, историком была создана база данных, т. е. файл с расширением. tdb (textual database). Совокупность категорий, определенных для текстовой базы данных, стала персональной базой данных – файл с расширением .pdb (personal database). Общий размер файла Great, преобразованного при помощи утилиты MAKBAS, составил 143 814 слов (tokens), словаря – 17 902 различающихся (оригинальных) слов (number of types)

В своей работе А. Л. Кобринский решал задачу – выявить, какой путь развития Российской Федерации как государства виделся депутатам Государственной Думы как наиболее оптимальный и приемлемый в сложившихся политических условиях (федеративный, унитарный, конфедеративный), а также на каких принципах должна формироваться федерация в результате законотворческой работы Думы (конституционных, договорных, конституционно-договорных).

Для решения поставленной задачи А. Л. Кобринский отобрал индикаторы смысловых единиц текста, отражающие сущность поставленных вопросов. На их основе были сформированы категории. К решению первой части задачи были выделены следующие категории: федеративность, унитарность, конфедеративность. Для решения второй части задачи выделены две основные категории – конституционная и договорная. Анализ отобранных категорий текста А. Л. Кобринский осуществил в два этапа. Первый этап заключался в изучении динамики выявления категориального аппарата текста. Это позволило исследователю выявить ряд контекстуальных особенностей, определивших связь категорий с событиями, рассматриваемыми в ходе дебатов. Автор писал: «…Во-первых, здесь присутствует цикличность. С началом работы законодателей наблюдается очевидная вспышка определенного интереса депутатов к изучаемой теме. Примечательно, что повышенное внимание к теме унитаризма приходится как раз на момент обострения чеченского кризиса. Однако простое сопоставление таблиц двух категорий —„Федеративность“ и „Унитарность“ позволяет сделать вывод, что даже в момент начинавшихся боевых действий парламентарии гораздо больше говорили о федеративности, чем об унитаризме как таковом. Во-вторых, обращает на себя внимание тот факт, что в любом временном интервале категория „Федеративность“ значительно (в два и более раза) опережает по частоте встречаемости две другие категории. В-третьих, динамика появления категории „Федеративность“ говорит о том, что на протяжении двух лет работы Государственной Думы законодатели обращались к терминологии, связанной с федеративным путем развития, постоянно, хотя и с разной интенсивностью. Категория „Конфедеративность“ появлялась лишь дважды, при этом терминология, связанная с этой категорией, присутствовала всего лишь в нескольких выступлениях. Появление категории „Унитарность“ отмечено несколько чаще, но ее интенсивность сравнительно невелика…».

Второй этап заключался в выявлении силы связи категорий с другими терминами и изучении контекста, в котором отмечена их встречаемость. Для измерения силы связи использовался специальный коэффициент – z-score. При определении величины коэффициента z основное значение имело соотношение частоты встречаемости рассматриваемого термина (индикатора) в смысловом поле категории с общей частотой встречаемости этого термина в исследуемом тексте (в корпусе).

Программа «ТАСТ» позволила А. Л. Кобринскому произвести автоматический подсчет, в результате которого исследователь получил значения коэффициента z-score. Опираясь на них, он смог выявить, с какими терминами существовала наиболее сильная и устойчивая связь основных категорий и от каких смысловых единиц интересующая его категория находится в наименьшей зависимости. Это, в свою очередь, позволило провести терминологическую ранжировку семантического поля данной категории.

Проведенный компьютерный контент-анализ текстов депутатских дебатов ГД РФ привел А. Л. Кобринского к следующим выводам: «Проведенный анализ показал, что депутаты придавали большое значение укреплению процесса федерализации страны, для чего проводилась разработка ряда федеральных законов. Дискуссии, развернувшиеся в ходе обсуждения последних, легли в основу контент-анализа материалов по указанной проблеме. Его результаты позволяют однозначно утверждать, что Дума 1993—1995 гг. считала возможным сохранение государственного единства и территориальной целостности только в условиях федеративного государства. Два других теоретически возможных пути развития Дума не считала сколь-нибудь приемлемыми для России в новых политических условиях. При изучении дебатов пленарных заседаний ГД ФС РФ первого созыва выделились две принципиально различные позиции видения парламентариями роли договоров, заключаемых между центром и субъектами РФ, о разграничении полномочий и предметов ведения. Компьютеризованный анализ дебатов подтвердил фактическое наличие в Думе двух групп, представлявших две точки зрения.

Анализ динамики дебатов, частоты встречаемости категорий и их контекста позволили выявить существование нескольких этапов, на которых договорным отношениям придавалась разная степень значимости. Важным шагом в работе Думы было смещение акцентов в этой проблеме. К концу деятельности Думы все больший и больший верх брала позиция, согласно которой была необходима законодательная работа по приведению в соответствие как уже заключенных договоров, так и договоров, находящихся в стадии подготовки новой Конституции Российской Федерации.

А. Л. Кобринский, воспользовавшись автоматическим составлением частотного перечня встречаемости категорий, динамики их появления в процессе работы Думы, а также сопоставлением перечня данных с контекстом (z-score), смог конкретизировать и углубить знание проблемы, создать доказательную базу результатов своего исследования, что в полной мере отвечало принципу объективности.

В известных примерах нетрудно было заметить, что основной процедурой реализации компьютерного контент-анализа был порядок соотнесения словоформ текста с категориями. Определение единиц контент-анализа проводится путем компьютерного приписывания группе связанных словоформ определенного (общего) смысла. Составленные таким образом группы слов являются категориями контент-анализа, а их количество составляет ранговую группировку ключевых слов текста нарративных источников.

В основе подобного подхода к категоризации лежит, по мнению исследователя В. И. Тихонова, убеждение в том, что категории выражают отдельные стороны исторического явления. Если это явление массовое и устойчивое, оно найдет отражение во многих документах – в ограниченном количестве контекстных словосочетаний, которые можно зафиксировать.

Причисление ключевых слов текста к общей тематической (смысловой, семантической) группе осуществляется за счет синхронизации работы программной среды с заданным словарем, представляющим собой семантический (идеографический) перечень, в котором в многоступенчатых классах слов представлена система общеупотребительной лексики. Семантический словарь может быть составлен самим исследователем (авторская категоризация), либо уже задействован в готовых решениях (Семантический словарь под общей ред. Н. Ю. Шведовой).

Наиболее известной системой с заданным словарем категорий является GENERAL INQUIRER, разработанная в Гарвардском университете (США). Словарь этой системы классифицирует 4 206 входных слов на 182 категории, преимущественно социологического и психологического характера. Заданный словарь не является неизменяемым массивом слов. На самом деле он представлен четырьмя меньшими словарями, составляющими его: Harvard IV, словарем значений Лассуэлла, словарем новых категорий и маркерным словарем (грамматическими правилами, используемыми для снятия смысловой неопределенности слов текста).

Другие системы с фиксированным словарем имеют более специализированное значение. К ним относятся:

система ЛЕКТА, ориентированная на лексико-семантический анализ больших текстовых массивов;

система ВААЛ, используемая при оценивании письменных документов на возможность эмоционального воздействия фонетической структуры текстов и отдельных слов на подсознание человека;

система CAMEO, созданная для кодирования и анализа политического дискурса, включающая 20 главных событийных категорий и 200 субкатегорий; кроме этого в системе предусмотрена обширная база для кодирования данных о политиках (Ф.И.О., даты);

другие системы (Qualrus, Tropes, LEXIMANCER, TABARI).

Среди историков наиболее известна ныне система TextAnalyst 2.0. Она ориентирована на предварительный анализ текста с автоматическим формированием семантической нейронной сети, фиксацией в тексте ключевых слов, их категоризацией, индексацией, а также кластеризацией информации, используемой при последующем изучении текста. Успех данной системы связан с возможностью проведения нейросетевого подхода в обработке информации нарративного источника.

Семантическую нейронную сеть, получаемую при работе системы TextAnalyst, можно понимать, как сеть динамически связанных между собой слов текста (нейронов), выполняющих логические операции дизъюнкции (разобщения), конъюнкции (связи) и инверсии (замещения). Взаимодействующие нейроны (нейронная сеть) являются элементарными понятиями обрабатываемого смысла текста. Так как связи между нейронами представляют собой элементарные отношения между понятиями, то такую сеть в большинстве случаях называют семантической нейронной сетью. Основной целью анализа нейронной сети является извлечение смыслового слоя текста, который, как правило, представлен в виде синхронизированного линейного дерева. В получаемой форме нейроны соединяются в виде множества пересекающихся деревьев, корни которых обращены в сторону рецепторов, а вершины – в сторону эффекторов.

20. Глава из монографии: В.Н. Сидорцов, А.А. Приборович Научный дискурс историка: социальная обусловленность и методология исследования. – Минск : изд. центр БГУ, 2013. – стр. 141-170.

Zurück 1 ...4 567 8 ...13 Weiter

Пробуждение историка-профессионала (из дневниковых записей автора)

Andere haben auch gelesen: