Маленькие хитрости ( Завершение эпопеи с обзорными статьями IEEExplore )

Для экономии времени и облегчения жизни тем аспирантам, кто реально захотел найти что-нибудь нужное и полезное для своей диссертации в перечне обзорных статей IEEExplore, предлагаю воспользоваться написанным мной скриптом для извлечения информации из «Списка обзорных статей библиотеки IEEEXplore».

1. Скачиваем по ссылке архивный файл “select_ieee.zip” размером 1172202 байт и извлекаем всё его содержимое, например, в папку “C:\IEEE”. Никаких вирусов и/или зловредов во всём этом наборе нет.

2. После этого в папке “C:\IEEE” появляется папка “result”, несколько exe-файлов, пара dll-файлов, bat-файл “1_select_ieee_reviews.bat”, exe-файл “1_select_ieee_reviews.exe”, csv-файл “ieee-reviews.csv” и текстовый файл “template.txt”.

3. Файлы “cat.exe”, “grep.exe”, “nl.exe” и “sed.exe” с “libiconv2.dll” и “libintl3.dll” – это утилиты из целого набора чрезвычайно полезных unix-утилит (коих вообще-то больше ста), которыми я постоянно пользуюсь при обработке текстовых файлов.

4. Файл “1_select_ieee_reviews.bat” – это написанный мной bat-файл для извлечения информации из файла “ieee-reviews.csv”. В тексте батника есть комментарии. Для тех, кто не любит возиться с командной строкой, “1_select_ieee_reviews.bat” был скомпилирован в “1_select_ieee_reviews.exe” с помощью программы “Bat To Exe Converter”.

Этот скрипт предназначен для того, чтобы по максимуму сэкономить время при поиске нужных обзорных статей, поскольку найти и «выдернуть» нужный обзор в списке из 6477 записей «вручную» — это точно «не айс».

5. Файл базы данных “ieee-reviews.csv” содержит всю ту же информацию, что и в исходном списке обзорных статей IEEExplore за 2006-2016 годы.

6. Текстовый файл “template.txt” содержит шаблоны или ключевые словосочетания, которые должны быть найдены в csv-файле. Предположим, что из файла “ieee-reviews.csv” нужно извлечь строки с названиями статей, в которых бы встречались слова “image” («изображение») и “processing” («обработка»). Для этого в файл “template.txt” нужно записать следующую строку1).* обозначает любое количество символов между двумя словами/

image.*processing

При этом в файл с шаблонами можно записать несколько строк с разными ключевыми словосочетаниями. Например, к уже записанной строке “image.*processing” можно добавить строку с единственным словом («робототехника»)

robotics

7. Тюкаем по файлу “1_select_ieee_reviews.bat” или “1_select_ieee_reviews.exe”. Поскольку в файл “template.txt” было записано пять строк

radar.*target
clutter.*improvement
polarization
image.*processing
robotics

то через несколько секунд в этой папке появляются файлы “SR_clutter-and-improvement.csv”, “SR_image-and-processing.csv”, “SR_polarization.csv”, “SR_radar-and-target.csv”, “SR_robotics.csv”. (Буквы “SR” означают “searching result” — «результат поиска»).

Из всех пяти csv-файлов “SR_clutter-and-improvement.csv” оказался «нулевым», то есть обзорных статей IEEExplore за 2006-2016 гг., в названии которых встречались бы слова “clutter” («помеховые отражения») и “improvement” («улучшение») найдено не было.

Итак, господа аспиранты, подбирайте нужные ключевые словосочетания, формируйте свой “template.txt” и вперёд — к поиску обзорных статей для своей диссертации!

Сноски   [ + ]

1. .* обозначает любое количество символов между двумя словами/