5.26 |
"Фильтрация информационного "базара":
продолжаем "потрошить" буржуев. Часть 3"
Итак, приступаем к "сеансу чёрной магии с разоблачениями", ради чего этот материал, собственно, и задумывался.
Шаг 1
В приведённой ниже таблице ищем подходящую для себя тематику рефератов IEEEXplore во втором столбце. Заметим попутно, что все эти 50 тематических рубрик соответствуют трём из четырёх направлений приоритетного развития ТУСУРа. При этом рефераты были "выдернуты" из базы данных IEEEXplore на глубину последних 10 лет.
Шаг 2
После того, как вы определились и выбрали тематику, скажем, "Алгоритмы обнаружения радиолокационных целей" (строка номер 1), бросаем свой взор в третью колонку, в которой имеется гипер-ссылка на архивный zip-файл "radar_target_dtection_algorithms.zip" размером 208705 байтов.
Таблица
N п/п |
Тематика рефератов IEEEXplore |
Ссылка на zip-архив |
1 |
Алгоритмы обнаружения радиолокационных целей |
Radar target detection algorithms (208705 байт) |
2 |
Алгоритмы обработки радиолокационных сигналов |
Radar signal processing algorithms (1075118 байт) |
3 |
Диагностика излучения плазмы |
(830602 байт) |
4 |
Защита информационной безопасности |
Information security protection (379491 байт) |
5 |
Защита информационной системы |
(601322 байт) |
6 |
Интеллектуальная силовая электроника |
(338461 байт) |
7 |
Информационная безопасность: Приложения |
Safety information applications (280061 байт) |
8 |
Исследования в области обработки радиолокационных сигналов |
Radar signal processing studies (676969 байт) |
9 |
Компоненты ВЧ приемника |
(387649 байт) |
10 |
Компоненты интегрального приемника |
Integrated receiver components (917831 байт) |
11 |
Компоненты малошумящего приемника |
(578275 байт) |
12 |
Компоненты монолитных интегральных схем |
Monolithic integrated circuit components (666959 байт) |
13 |
Компоненты передатчиков оптического диапазона |
Optical transmitter components (772714 байт) |
14 |
Компоненты приемников оптического диапазона |
(1158316 байт) |
15 |
Компоненты сверхширокополосных передатчиков |
(99621 байт) |
16 |
Компоненты твердотельных переключателей |
Solid-state switching components (564091 байт) |
17 |
Методика обработки радиолокационных сигналов |
Radar signal processing techniques (1377331 байт) |
18 |
Методы обработки радиолокационных сигналов |
Radar signal processing method (1437206 байт) |
19 |
Монолитные интегральные схемы |
Monolithic integrated circuits (883575 байт) |
20 |
Надежность в приложениях силовой электроники |
Power electronic applications reliability (868574 байт) |
21 |
Нанофотоника |
(448142 байт) |
22 |
Нанофотоника: Приложения |
(382370 байт) |
23 |
Наноэлектроника |
(965601 байт) |
24 |
Обнаружение радиолокационных целей |
(508309 байт) |
25 |
Обнаружение сигналов от радиолокационных целей |
(389096 байт) |
26 |
Обработка радиолокационных сигналов: Приложения |
Radar signal processing applications (2366770 байт) |
27 |
Оптоэлектроника: Приложения |
(2030092 байт) |
28 |
Передающие телевизионные системы |
(465669 байт) |
29 |
Приложения интеллектуальной силовой электроники |
Intelligent power electronics applications (347985 байт) |
30 |
Проблемы при обработке радиолокационных сигналов |
Radar signal processing problem (607430 байт) |
31 |
Производство в сфере оптоэлектроники |
(1856980 байт) |
32 |
Радиолокационное обнаружение |
(1136476 байт) |
33 |
Радиометрия: Приложения |
(835937 байт) |
34 |
Разработка монолитных интегральных схем |
Monolithic integrated circuit design (415079 байт) |
35 |
РЛС обнаружения целей |
(509176 байт) |
36 |
Силовые электронные преобразователи: Приложения |
Power electronic converter applications (2133755 байт) |
37 |
Системы для обработки радиолокационных сигналов |
Radar signal processing systems (2582490 байт) |
38 |
Системы защиты информации |
Information protection systems (601401 байт) |
39 |
Системы информационной защиты |
Protection information systems (601386 байт) |
40 |
Современные телекоммуникационные системы |
Advanced telecommunications systems (394239 БАЙТ) |
41 |
Составляющие радиолокационных сигналов |
(2229342 байт) |
42 |
Твердотельные компоненты и схемы |
Solid-state components and circuits (4561856 байт) |
43 |
Твердотельные компоненты оптического диапазона |
Solid state optical components (806915 байт) |
44 |
Твердотельные электронные компоненты |
Solid-state electronic components (1034665 байт) |
45 |
Телевизионные системы |
(678423 байт) |
46 |
Технология изготовления монолитных интегральных схем |
Monolithic integrated circuit technology (474916 байт) |
47 |
Технология оптоэлектроники |
(1174040 байт) |
48 |
Устройства нанофотоники |
(409740 байт) |
49 |
Цифровые телевизионные системы |
(340145 байт) |
50 |
Электронные компоненты СВЧ |
Microwave electronic components (870059 байт) |
Шаг 3
Тюкая по ссылке, скачиваем zip-файл в какую-нибудь папку, например, в папку "C:\IEEE".
Шаг 4
Извлекаем содержимое zip-файла в эту же папку.
Как видим, в архиве хранились следующие файлы:
FDA_abr-j-radar_target_detection_algorithms.csv
FDA_trm-j-radar_target_detection_algorithms.csv
FDT_abr-j-radar_target_detection_algorithms.csv
FDT_trm-j-radar_target_detection_algorithms.csv
j-radar_target_detection_algorithms.csv
KWA-j-radar_target_detection_algorithms.txt
KWT-j-radar_target_detection_algorithms.txt
Отметим, что файлы, содержащиеся во всех аpхивных файлах из Таблицы, имеют однотипные обозначения. И вот что они значат:
- слова "radar_target_detection_algorithms" соответствуют тому набору ключевых слов (естественно, без символа _), по которых информация извлекалась из электронной библиотеки IEEEXplore;
- символы "-j-" обозначают то, что рефераты из IEEEXplore "выдернуты" из журналов ("journals"),
- csv-файлы, начинающиеся с префикса "FD", представляют собой "частотные словари" ("Frequency Dictionary"), в которых содержится информация о том, насколько часто встречается то или иное слово;
- txt-файлы, начинающиеся с префикса "KW", представляют собой сортированные списки "ключевых словосочетаний" ("Key Words");
- буква "A" в префиксе означает, что частотный словарь или список ключевых словосочетаний составлен по тексту собственно реферата ("Abstract") журнальной публикации;
- буква "T" в префиксе означает, что частотный словарь или список ключевых словосочетаний составлен по названию ("Title") журнальной публикации;
- буквенное сочетание "abr" обозначает "аббревиатуры" ("abbreviations");
- буквенное сочетание "trm" обозначает "термины" ("terms").
Ещё не запутались?
"Основным" файлом из семи является собственно csv-файл БД Excel "j-radar_target_detection_algorithms.csv" с 14-ю полями (разделёнными символом "точка с запятой"):
- № п/п
- Название
- Автор(ы)
- Реферат
- Место работы
- Журнал
- Дата опубликования
- Том
- Номер
- Страницы
- ISSN
- ISBN
- DOI
- INSPEC Accession Number
Оставшиеся шесть файлов носят вспомогательный характер. "А тогда нафига они?" – могут спросить меня интеллигентные и воспитанные аспиранты. В таких случаях я всегда повторяю слова моей супруги: "Ну, вас не спросили!"
А если серьёзно, то не надо думать, что всё, что выкладывается на этом сайте, делается исключительно и целенаправленно для аспирантов. Нет. У меня есть своя основная работа, но какие-то "отходы моего производства", как мне казалось, аспиранты могут использовать в своёй деятельности. Так и в этом случае. Без особых фантазий, вот вам, навскидку, несколько очевидных применений упомянутых вспомогательных файлов:
"Частотные словари"
1. Использование этих словарей для совершенствования и "шлифования" своих знаний иностранного языка.
Берём, к примеру, файл "FDA_trm-j-radar_target_detection_algorithms.csv" – частотный словарь, сформированный по рефератам 302 журнальных публикаций. Вот – его первые десять строк:
"Термин в тексте реферата";"Число повторений"
"target";"894"
"algorithm";"584"
"radar";"468"
"detection";"420"
"data";"349"
"signal";"241"
"clutter";"236"
"performance";"226"
"system";"204"
...
Ежу понятно, что зубря английские слова по своей специальности, в первую очередь нужно выучить термины, наиболее часто встречающиеся в тексте реферата. А не "накидываться" на заучивание и запоминание слов типа "whiteness", встретившееся в трёх сотнях рефератах всего один раз.
Поэтому формируем на основе этих файлов свои словари и используем их в программах для заучивания английских слов, например, "BX Language acquisition", "FVords" и т.п.
2. Использование частотных словарей в программах типа "IntelliComplete" и "Быстрый набор 4", которые позволяют увеличить в разы скорость набора, особенно английского текста, предлагая варианты слов по введённым начальным буквам.
Далее можете сами пофантазировать к чему "прикрутить" эти частотные словари. Кому не надо, взяли да удалили, в конце концов.
"Сортированные списки ключевых словосочетаний"
Эта "штука" менее очевидная, но, вообще-то, полезная.
Вот – примеры случайно "выдернутых" словосочетаний из файла "KWA-j-radar_target_detection_algorithms.txt":
adaptive chirplet transform technique
...
amplitude comparison monopulse radar
...
high recognition accuracy
...
Для чего нужны эти словосочетания и в чём их практическая польза?
Во-первых, опять же – для "шлифования" и "полировки" своего английского языка.
Во-вторых, вы сами сможете убедиться, что эти противные англичане иногда пишут используемые нами термины совсем не так, как написали бы их мы. Но, тут они, к сожалению, правы. Лучше в своей учёной статье использовать всё-таки "ихние" термины, чем получить "отлуп" из редакции "забугорного" журнала из-за пресловутого "bad English".
В третьих, эти словосочетания вы можете использовать при более тщательном поиске информации, например, в той же электронной библиотеке IEEEXplore.
И, наконец, эти группы слов можно и нужно использовать для того, чтобы "выдернуть" или, как кому больше нравиться – "отселектировать", нужную информацию из файла базы данных. Например, из упомянутого уже выше файла "j-radar_target_detection_algorithms.csv".
Итак, переходим к "селекционным процедурам": ноги на ширине плеч, руки на клавиатуре, глаза устремлены на монитор. Вдох-выдох. Поехали.
Шаг 5
Удаляем файлы с частотными словарями и ключевыми сочетаниями, чтобы они пока не мозолили глаза.
Шаг 6
Создаём папку с точным названием "refdb", иначе потом у вас ничего "не заработает".
Шаг 7
Скачиваем по ссылке архивный файл "select.zip" размером 1067594 байт и извлекаем всё его содержимое в папку "C:\IEEE". После этого в ней появляется несколько exe-файлов, пара dll-файлов, один bat-файл и текстовый файл "template.txt".
Файлы "grep.exe", "paste.exe" и "sed.exe" с "libiconv2.dll" и "libintl3.dll" – это три утилиты из целого набора чрезвычайно полезных unix-утилит (коих вообще-то больше ста), которыми я постоянно пользуюсь при обработке текстовых файлов.
"CMsort.exe" – это мощная утилита для сортировки текстовых файлов. Рекомендую, кому нужно "шерстить" большие текстовые файлы.
"Nircmd.exe" – это универсальная утилита с чрезвычайно развитыми возможностями, которая в данном случае используется только для подачи звукового сигнала через системный динамик.
Текстовый файл "template.txt" содержит шаблоны, которые должны быть найдены в csv-файлах баз данных рефератов.
И, наконец, "select.bat" – это написанный мной bat-файл для извлечения информации из файлов баз данных рефератов IEEEXplore. Для желающих "покопаться во внутренностях" этого скрипта текст батника сопровождается подробными комментариями. Для тех, кто не любит возиться с командной строкой, "select.bat" был скомпилирован в "select.exe" с помощью программы "Bat To Exe Converter". Никаких вирусов во всём этом наборе нет.
Назначение всего этого "хозяйства" состоит в том, чтобы максимально сэкономить время при анализе рефератов по выбранной вами тематике. Когда число число рефератов невелико, то вы можете, открыв csv-файл в Excel, резвиться сколько вам вздумается в поисках статьи, содержащей нужные вами ключевые словосочетания. Но если число строк (записей) в соответствующей базе данных достигает нескольких тысяч или десятков тысяч, то я гарантирую, что вы "поседеете", пока найдёте то, что нужно.
Шаг 8
"Перетаскиваем" файл "j-radar_target_detection_algorithms.csv" в папку "refdb". Для наглядности процесса "селекции" и возможности поиска сразу по нескольким базам данных рефератов я "закинул" в эту папку ещё три csv-файла по радиолокационной тематике.
Шаг 9
В данном конкретном случае, в качестве примера, текстовый файл с шаблонами "template.txt" содержит три строки:
small target.*clutter.*improvement
signal processing.*radar detector
full polarization
Что это означает? Это значит, что в четырёх csv-файлах баз данных в папке "refdb", общим объёмом 5304 реферата, мы хотим "выдернуть" только те строки, где
– есть точное словосочетание "small target", за которым после любого числа произвольных символов и слов (.*) идет слово "clutter", за которым после любого числа произвольных символов и слов (.*) идет слово "improvement";
– есть точное словосочетание "signal processing", за которым после любого числа произвольных символов и слов (.*) идет словосочетание "radar detector";
– имеется точное словосочетание "full polarization".
Шаг 10
Дважды щёлкаем по "select.exe" (или по bat-файлу).
Через доли секунды в папке "C:\IEEE" появляется "результат" – файл "selected.csv" с результатами поиска, содержащий модифицированный файл базы данных рефератов с шестью записями (строками), найденными в четырёх файлах БД в папке "refdb". Единственное отличие: к имевшимся 14-ти полям добавлены поля "Имя файла" и "Номер строки".
А сколько бы времени у вас ушло на "прореживание" исходных пяти тысяч строк "вручную"? То-то же!
Каков же будет порядок действий для "вашей" тематики?
А вот какой:
– удаляете из папки "refdb" "чужие" csv-файлы;
– копируете в папку "refdb" csv-файл с базой данных рефератов, один или несколько, по своей тематике;
– удаляете из текстового файла "template.txt" строки, которые там были, и вписываете (по аналогии) свои словосочетания;
– запускаете на исполнение "select.exe" или "select.bat", получая новёхонький "selected.csv".
При этом, если запустить процесс селекции, когда в папке "refdb" не будет файлов "j-<name>.csv", то системный динамик вам об этом пропипикает.
Забыл сказать, что всё это "пашет" на компьютерах с установленной Windows XP со всеми обновлениями. На "семёрках", "восьмёрках" или "тузах" вся эта процедура не проверялась. Ибо замена системы только ради псевдокрасивостей и "надгробных плиточек" меня не прельщает, поскольку я стараюсь блюсти принцип: "работает – не трогай".
Приступаем к заключительному этапу нашей эстафеты
Шаг 11
Открываем в Excel уже сформированный ранее файл "selected.csv". Ниже – скриншот открытого файла, нарезанный порционно, чтобы "влез на тарелку".
начало скриншота
продолжение
последняя часть скриншота
Как видим, из более чем 5300 строк в четырёх базах данных рефератов было "выдернуто" всего шесть записей. При этом строки-дубликаты в файле "selected.csv", которые могли встречаться в разных исходных файлах БД, были удалены. Но если бы в файле "template.txt" вы оставили только одну строку с единственным словом "target", то вместо 6 строк, вы получили бы на "выходе" 1026 информативных записей! Так, что "Тщательней надо, тщательней", как говорил Михал Михалыч Жванецкий.
Предположим, что из найденных шести записей меня заинтересовала статья "Optimal Polarized Beampattern Synthesis Using a Vector Antenna Array" ("Оптимальный синтез поляризованной диаграммы направленности с использованием векторной антенной решётки"). Раньше, ещё до того как молодой и перспективный аспирант Александр Юрьевич Попков "ткнул меня носом" в уникальный информационный ресурс, я был бы вынужден беспокоить моих голландских друзей, отрывая их от строительства капитализма в отдельно взятой стране. А теперь!!
Шаг 12
В ячейке, лежащей на пересечении строки с порядковым номером "6" и столбца "N", копируем значение "DOI" ("Digital Object Identifier" или "цифровой идентификатор объекта") – 10.1109/TSP.2008.2007107.
Шаг 13
Открываем в браузере ресурс "Sci-Hub" с весьма минималистским дизайном, и вставляем в строку поиска скопированный DOI.
После чего тюкаем по кнопочке с треугольничком. И через несколько секунд в браузере открывается страница, внешне напоминающая стандартную страницу цифровой библиотеки IEEEXplore. Непривычным для меня оказались только два элемента:
– надпись о том, что доступ предоставлен библиотекой Чикагского университета (спасибо тебе, неведомый заморский человек!)
– и появление двух "волшебных" кнопок, обещающих доступ к полному тексту статьи в pdf- и html-форматах.
Не верю своим глазам, но всё же дрожащим от волнения курсором нажимаю кнопку "Access Full Text (PDF)".
И, о чудо! По прошествии нескольких секунд
в моём любимом Firefox появляется pdf-файл с искомой статьёй двух товарищей – Ксяо и Нехорая.
Шаг 14
Скачиваем pdf-файл к себе на компьютер, чтобы в тиши уединения насладиться научным творением забугорных научных коллег.
Всё!
Да здравствует, Александр Юрьевич Попков, верный продолжатель дела великого Александра Степановича Попова! Аплодисменты, переходящие в овацию.
Послесловие
Но для того, чтобы жизнь всё-таки не показалась мёдом, надобно сказать, что бывают случаи, когда DOI отсутствует. Ну, например, в случае статьи "Study on the method of polarization suppression of cheating jamming in pulse Doppler radar" ("Изучение метода поляризационного подавления ложных помех в импульсно-доплеровской РЛС") (строка под номером 3 в файле "selected.csv"). Я, конечно же, ещё раз перепроверил наличие идентификатора у этой публикации на сайте IEEEXplore. Но его действительно не было.
Вбиваю на сайте "Sci-Hub" название статьи в строку поиска.
Поисковик выдаёт мне ссылку на статью, найденную могучим Гуглом. Тюкаю по ссылке.
Открывается аналогичная страница IEEEXplore с надписью "Доступ предоставлен Университетом МакГилла"
Но при этом, чуть ниже, появилсь траурная надпись "Данное содержание недоступно по подписке вашего вуза".
Вот так: "Не все коту масленица, бывает и великий пост".
И, второе по порядку, но не по значению. В своих "делах скорбных" информационных я вывел для себя железное правило: "Интернет нестабилен, лови момент, пока дают!"
В своё время я "наткнулся" на замечательный пиратский ресурс "WiredShelf" с буржуйским техническими книжками. Заплатив эквивалент стоимости 1,5-литровой бутылки пива, я за сутки "увёл" оттуда немалое число очень хороших книг в электронном формате. Правда, потом выяснилось, что эти "ребята" весьма ловкие и пройдошистые, поскольку впоследствии пытались снять у меня с виртуальной банковской карты стоимость доступа к библиотеке за месяц, вместо суток. Но, так как на виртуальные карты я кладу ровно столько, сколько нужно для конкретной проплаты, то они "обломились". И всё бы хорошо, но только спустя некоторое время их сайт прикрыли в ходе кампании по борьбе с нарушениями авторского права.
Господа, аспиранты! Не надо "тянуть кота за хвост". Используйте доступ к "Sci-Hub" уже сейчас, не откладывайте на потом. Кто его знает, сколько продлится эта "лафа"! Всё в этой жизни скоротечно...
Засим прощаюсь, успехов в работе над диссертацией!
Продолжение следует...
© 2013. В.И. Карнышев
"Аспирантура: непутёвые заметки язвительного пессимиста"
© Патинформбюро,
, 2014