Не просто «квест», а ProQuest ( то место, где аспиранту нужно обязательно порыться )

Шибко древние греки — любители драм и комедий, в стародавние времена придумали театральный символ — смеющуюся и плачущую маски. Честно говоря, я бы эту эмблемку примайстрячил к логотипу Минобрнауки. Потому, что ржать и рыдать над данным государственным, не побоюсь этого слова, о́рганом, можно беспрестанно.

Смех и слёзы

Кстати, сайт «минобрнауки.рф» заставляет всплывать из глубин мозга старый армейский клич: «Кто не был — тот будет, кто был — тот не забудет». Особенно воодушевляет специально вынесенный пункт меню «ПРОТИВОДЕЙСТВИЕ КОРРУПЦИИ» в правом верхнем углу — как на божни́чке. Наверное, именно этот пунктик и нажал г-н Бурматов, выкативший Ливанову предъяву в разбазаривании, а точнее, в выводе до хрена миллионов бюджетных денег неизвестно куда — по серым схемам, через мутные конторы. Ну, да ладно — Генпрокуратура не маленькая, чай, под́и разберётся.

А вот чем начальник Министерства образования и науки на днях порадовал (или посмешил) — так это сногсшибательной новостью об увеличении — впервые за 15 лет — числа учёных товарищей в нашей стране.

Ну, слава тебе, Господи, наконец-то! «Впервые зарегистрировано увеличение количества людей, занимающихся исследованиями. В 90-е годы произошел провал и привел к значительному исходу людей как из науки, так и в другие страны. Год от года происходило уменьшение людей, которые занимаются научными исследованиями. И вот впервые за 15 лет произошло увеличение», — сказал Ливанов. Правда, г-н «Ливнов», как его обозвало «РИА Новости», несколько поскромничал и почему то не упомянул причин этого знаменательного происшествия. Рождаемость что-ли повысилась?

Кроме того, на его месте не стоило бы позориться перед людя́ми и озвучивать максимальный(!) за последние 5 лет показатель наукоемкости ВВП нашей страны — 1,19%. Потому, что пороговым значением этого показателя — для научно-технологической безопасности страны — считается как раз 1%, от которого Россия, как от пропасти, отодвинулась лишь на чуть-чуть. А с учётом неэффективности использования бюджетных средств ещё неизвестна реальная, а не бумажная, наукоёмкость.

Для примера наукоёмкость ВВП моих любимых Сингапура и Голландии в 2013 году составляла 2 и 1,98%, соответственно, а в Южной Корее, которую ещё тридцать пять лет назад в мире никто всерьёз не воспринимал, этот параметр равен 4,15%. Причём Португалия — так называемые задворки Европы, увеличила расходы на науку по отношению к ВВП в 4,5 раза за последние 30 лет. Нам плакать или смеяться?

«Увеличилась и результативность научных исследований: в период с 2004 по 2014 год число публикаций российских учёных в базе Web of Science увеличилась на 27%, а в базе SCOPUS – на 45%. Общие темпы прироста публикаций в России превысили темпы мирового прироста публикаций. Это привело к увеличению доли российских научных публикаций – сегодня они составляют 2,11% от общемирового объема».

Неужто господам чиновникам, и в частности, м-ру Ливанову, неизвестно, как происходит процесс «наращивания» числа публикаций на российских просторах? Один из многочисленных способов раздувания публикационных показателей описан, например, здесь. Кроме подобных махинаторских приёмов никто не отменял ещё элементарную покупку авторства. Например, одно время список публикаций Высшей школы экономики, имеющих наибольшую цитируемость, возглавляла статья 140 авторов-иностранцев про ожирение в медицинском журнале «The Lancet». Высшая школа ожирения мозга?

Кстати, а почему только 2,11% от мировых публикаций, ведь Владимир Владимирович приказали-с довести к 2015 году этот процент до 2,44!

И тут, на фоне оптимистичных и радужных сообщений г-на министра, вдруг всплывает информация его подчинённого — директора департамента госполитики в сфере высшего образования Минобрнауки А. Соболева, о том, что «по масштабным исследованиям, проведенным в прошлом году, 50% нетрудоустроенных обучались по экономике и юриспруденции». Ай-я-яй, вот тебе, бабушка, и Юрьев день! Кто бы ожидал такого конфуза! А какого, извините, хрена, вы — именно вы — в своём Министерстве, нааккредитовали и налицензировали чёртову тучу этих псевдо-специальностей и псевдо-университетов для дебилов в ущерб техническим вузам, работавшим в том числе и на оборонку?

И так можно без конца: поржали, поплакали, опять поржали

Кстати, вот замечательный совет для нашего Министерства о том, как ещё больше увеличить число учёных в нашей стране. Нужно сделать точно также, как в Европе, где «Еврокомиссар по науке и инновациям Карлос Моедаш принял решение трудоустроить беженцев с Ближнего Востока и Северной Африки в исследовательской сфере, сообщает журнал Science». А «чо», нормально, попрёт!

 Про крупнейшую в мире базу данных диссертаций

Заходи, мил человек, посидим,
о делах наших скорбных покалякаем…
(«Место встречи изменить нельзя»)

А теперь, в сторону досужую болтовню — к делу. На днях я решил поближе глянуть на ресурс «ProQuest», к которому нам дали пробный доступ. Если кто из вас, господа аспиранты, не в курсе, то ProQuest — это крупнейшая в мире база данных научных диссертаций, начиная с 1743 лохматого года.

Польза от знакомства с потусторонними диссертациями, на мой взгляд, однозначная и существенная.

«… И кто не ценит своего счастья,
пусть остается дураком»
(Диана, «Собака на сене»)

Во-первых, расширение кругозора всегда на пользу юным аспирантам, а во-вторых, «меня опять терзают смутные сомнения», что ваша диссертация, молодые люди, уже написана каким-то умником за кордоном. Поэтому не побрезгуйте порыться во всемирной кладовке диссертаций. Мало того, что хуже не будет, а вдруг что-то полезное отыщется. Но для этого нужно хотя бы слегка пе́трить по-буржуйски. А кто говорил, что будет легко?

Итак, будем считать, что вы имеете интернет-доступ к ProQuest. Страница поиска выглядит следующим образом.

Я бы перво-наперво рекомендовал зарегистрироваться в этой системе. Описывать, как это делается  молодым людям, которые не вылазят из всяких там соц.сетей (социалистических?), не буду. Разберётесь без труда сами. Тюкаем по кнопочке с профилем в правом верхнем углу.

В выпавшем меню жмём на «Вход в «Моё исследование»».

Вбиваем свои логин и пароль, и жмём на «Вход».

А вот дальше я описываю свою мето́ду поиска в этой системе, поскольку более привычен к командной строке. И, кстати, не настаиваю именно на ней. Но попробуйте хотя бы для начала. А потом сами проложите путь, который вам удобне́й. В пункте «Расширенный поиск» тюкаем по «Командная строка».

Перед вами откроется текстовое окно, куда нужно вбить свой запрос.

Предположим, что меня жутко интересуют диссертации, в названии которых встречается слово «radar» — «радиолокация» («РЛС», «радиолокационный»). Что, кстати, не так далеко от истины. А порыться я, например, желаю в буржуйских «кирпичах», опубликованных с января 1985 по декабрь 2015 года. Вот такой скромненький запросик. Мне много не надо. Формируем его следующим образом: ti(radar) AND pd(19850101-20151231). Если кто не понял, то «ti» — это кусочек слова «title» («название»), а «pd» — от «publication date». Надеюсь, что логическую операцию AND господам аспирантам объяснять не нужно.

Тюкаем по кнопке «Поиск».

И довольно шустро ProQuest сообщает мне о том, что найдено 2430 диссертаций всех мастей. Судя по картиночке, имеется некий возрастающий тренд в количестве квалификационных работ, хотя 2012-2014 годы несколько настораживают. Пипл устал?

Проведём более специализированный поиск в той же командной строке.
ProQuest

Для этого добавляем ещё один критерий поиска: «ab(radar)». Это означает, что будет произведена выборка диссертаций со словом «radar» в названии работы и в реферате («abstract»), который в ProQuest по-русски почему-то называют «конспект».
ProQuest

Тюкаем по кнопке «Поиск».
ProQuest

Ага! Почти триста диссеров корова языком слизала.
ProQuest

Тогда ещё обузим поиск, добавляя следующий ограничитель: наличие слова «radar» среди индексных терминов (ключевых слов) диссертации, т.е. в запрос вставляем «AND diskw(radar)».
ProQuest

Опа-на! В списке осталось 800 трудов заграничных товарищей.
ProQuest

А поскольку нам нафиг не сдались всякие там магистерские фантазии, ставим крыжик у «Только докторские диссертации».
ProQuest

Жмём на «Поиск».
ProQuest

И вот, финал апофеозо! При глубине поиска в тридцать лет найдено 676 диссертаций со словом «radar» в названии, реферате и ключевых словах. Такое диссертационное обрезание гарантирует почти на 100%, что вам в руки не попадётся какая-нибудь псевдогуманитарная туфта, где святое слово «radar» используется в абсолютно дурацком контексте.
ProQuest

Между прочим, все поняли, что троекратное повторение слова «radar» в названии, реферате и ключевых словах — это лишь простейший и демонстрационный вариант отбраковки? Я бы мог оставить «radar» в названии, но выбрать словосочетание «target detection» («обнаружение цели») для реферата, и задать термин «remote sensing» («дистанционное зондирование») для ключевых слов:

ti(radar) AND ab(target detection) AND diskw(remote sensing) AND pd(19850101-20151231)

Тогда результат, естественно, окажется совершенно иным: всего лишь две диссертации. Что, в принципе, неплохо! Это может означать, что на вашей научной поляне ещё не всё вытоптали. А с точки зрения пессимиста, является свидетельством того, что то, чем вы занимаетесь, нахрен никому не нужно. Но не будем о грустном!

Поскольку любой информационный поиск должен заканчиваться конкретным результатом — сохранением найденного, то посмотрим, как с этим справляется ProQuest. Могу сказать, что по сравнению с другими инфо-ресурсами, данная система справляется с этим очень хорошо.

Во-первых, можно выбрать количество отображаемых на странице записей. Для большого числа логично выбрать максимальное значение — «100» элементов.
ProQuest

Жмём на «Изменить».
ProQuest

Замечу, что при неполноценном, пробном допуске ProQuest выдаёт не более четырёх тысяч ссылок за раз. Если нужно закачать больше, чем 4000, то «регулируйте» процесс закачки, разбивая весь временной интервал на «кусочки».

Чтобы не сохранять каждую страницу по отдельности, а экспортировать все найденные результаты, нужно последовательно пройтись по всем 7 страницам со 100 записями на каждой, и выделить содержимое.

Выделяем все записи на первой странице.
ProQuest

После чего вид страницы изменяется следующим образом.
ProQuest

Переходим на вторую страницу и проводим аналогичную операцию.
ProQuest

на третью, на четвёртую …
ProQuest

Выделяем все записи на четвёртой странице.
ProQuest

Выделяем все записи на пятой странице.
ProQuest

Выделяем все записи на шестой странице.
ProQuest

И, наконец, выделяем всё на последней странице.
ProQuest

Сохранять результаты поиска можно в куче форматов. Жмём на «Дополнительно».
ProQuest

Включаем библиографию в конце файла.
ProQuest

Выбираем стиль цитат.
ProQuest

Останавливаемся на стиле «BibTeX», поскольку, кроме машинки (как кот Матроскин), я еще и в MiKTeX печатаю.
ProQuest

Ставим галки у «Титульная страница или заголовок», «Содержание», «Нумерация» и вуаля!
ProQuest

Для примера, сохраним сначала всё найденное непосильным трудом в html-формате, тюкая по «HTML».
ProQuest

Жмём на «Продолжить».
ProQuest

Ждём некоторое время.
ProQuest

Ждём-с…
ProQuest

«Чай готов, извольте кушать», снял я с барина пальто. — «Молодец, всегда так слушай и хвалю тебя за то». Жмём на «OK».
ProQuestЛюбопытные аспиранты могут скачать архив с «ProQuestDocuments-2015-10-11.html» по ссылке.

В качестве варианта можно сохранить результаты в формате rtf.
ProQuest

Жмём на «OK».
ProQuest

Скачать архив с «ProQuestDocuments-2015-10-11.rtf» можно по ссылке. Лично у меня сформированный файл не открылся в «Word 2010»,
ProQuest

но зато совершенно спокойно открылся в «Word 2003».

И, напоследок, сохраняем результаты в формате, который интересует меня с точки зрения автоматического извлечения нужной информации — это текстовый.
ProQuest

Жмём на «OK».

ProQuest

Скачать архив с «ProQuestDocuments-2015-10-11.txt» можно по ссылке.

Ещё примерчик

В качестве ещё одного примера использования ProQuest для нужд народного хозяйства приведу поиск диссертаций на тему робототехники («robotics») для той же, тридцатилетней, глубины поиска.
ProQuest

Найдено почти две тысячи диссеров!
ProQuest

Допустим меня интересуют робототехнические диссертации на тему машинного зрения. Прибавляем слово «vision» для дополнительного поиска в реферате.
ProQuest

Ага! Число диссертаций уменьшилось почти на порядок.
ProQuest

Ну, тогда пущай ProQuest найдёт мне квалификационные работы, у которых в ключевых словах было бы «simulation» («моделирование»)!
ProQuest

Ничего не сказала рыбка,
Лишь хвостом по воде плеснула
И ушла в глубокое море.
(А.С. Пушкин, «Сказка о рыбаке и рыбке»)

ProQuest

Облом! Нэма таких диссеров, ещё не написали! Хорошо, будь по твоему, ProQuest. Заменю-ка я «симьюле́йшн» на «си́стем».
ProQuest

«Не печалься, ступай себе с богом, Будет вам новое корыто». Нашлось-таки четыре работы!
ProQuest

Магистранты! На выход, с вещами!
ProQuest

Обновим-с!
ProQuest

Ну, наконец-то, заждались! Три диссертации в студию! Правда немного смущает десятилетняя временна́я «дыра» с 2002 по 2011 годы.

ProQuest

«Сеньора, стойте! Всякий знает:
Возврат любви не означает,
Что в ней имелся перерыв»
(Тристан, «Собака на сене»)

Для пробного доступа к ProQuest типично отсутствие ссылки на полнотекстовую версию буржуйского диссера. Однако, как правило, есть начальные двадцать страниц в pdf-формате. Иногда на безрыбье и рак — рыба. Поэтому тюкаем по «Предварительный просмотр — PDF».
ProQuest

Нажимаем кнопочку «Закачать».
ProQuest

Cохраняем файл «out.pdf».
ProQuest

Ну, а дальше делаем с ним чего аспирантская душа пожелает!

Чистим pdf

Обратите внимание на то, что страницы скачанного pdf-файла «out.pdf» ухряпаны водяным знаком «PREVIEW» для защиты чего-то там. Может быть, такая надпись появляется только в пробной версии доступа к ProQuest. А может быть и нет. Врать не буду — не знаю.

ProQuest

ProQuest

Если кому-то «ндравится» лицезреть в файле этот «watermark», то так тому и быть. Но некоторых эстетов, вроде меня, он жутко раздражает. Идя навстречу трудящимся всего мира, программистами-умельцами были созданы программы, позволяющие удалять водяные знаки из pdf-файлов, например, «PDF Logo Remover», «PDF Watermark Remover», «Nitro Pro», «PDF Converter Ultimate», «VeryPDF PDF Text Replacer», «VeryPDF PDF to Any Converter» и т.п. И, как утверждают, даже сам «Adobe Acrobat Pro» также позволяет это делать. Перепробовав всё выше упомянутое, скажу: «Ни фига они не удаляют эту надпись PREVIEW из файлов, выдаваемых ProQuest!».

Частично помог бесплатный онлайн сервис.

ProQuest

Для начала нужно загрузить pdf-файл.
ProQuest

Выбираем файл для загрузки.
ProQuest

… Графиня пошла!
Так, пошла графиня…
(х/ф «Раба любви»)

Пошла загрузка pdf-файла на сервер…

ProQuestНачалась конвертация pdf в doc…

ProQuest

Финал. Скачиваем сконвертированный файл.
ProQuest

ProQuest

Первый «минус»: сформированный doc-файл «весит» нехило. Из почти 900 Кб pdf-файла получилось вордовское творение на 13 Мб.

«Плюс»: пресловутые «PREVIEW» исчезли «как сон, как утренний туман».

Второй «минус»: наложенные на текст «картинки» (см. курсор с перекрестием), поначалу воспринимающиеся как двоение в глазах,

ProQuest

нужно удалять «ручками» на всех страницах.
ProQuest

Но это — не самое печальное: двадцать страниц, ведь, не двести. Самая «пичалька», или третий «минус», состоит в том, что если в pdf-файле были рисунки — а они были, то такая «чистка» приводит и к удалению нужной графической информации. Зато вы получили текст.

Отмечу, что так кривовато дела обстоят с pdf-файлами, созданными из графических (отсканированных) изображений. Файлы, сгенерированные виртуальными pdf-принтерами, при их конвертации в doc на сайте pdf2doc.com позволяют добиться несколько лучшего результата. Водяной знак превращается просто в картинку, которая легко удаляется (см. скриншот внизу).

ProQuest

Но происходит это не всегда. На некоторых страницах надпись «PREVIEW» остаётся не преобразованной. Причина этого неизвестна.

ProQuest

Грамотный аспирант тут же спросит: «А как же ABBYY FineReader (10 или 11 версии)?». И будет прав потому, что «FineReader» выдаст результат получше. Но всё равно придётся лазить по страничкам, выискивая нераспознанные куски изображения «PREVIEW» и удаляя их. А лично меня жутко бесит всё, что я вынужден тупо делать три раза подряд.

Поэтому пришлось написать bat-файл, использующий «ImageMagic», «Ghostscript» и несколько бесплатных утилит, для автоматизации процесса удаления водяного знака из pdf-файла.

Так, на стареньком, 2007 года рождения, PC с Windows XP SP3, автоматическое преобразование 24 страничного файла заняло 4,5 минуты. На относительно новой «машине» с «семёркой» это заняло 50 секунд. Но дело не столько во времени, сколько в отсутствии «ручного» труда. К чему нас, собственно, призывал ещё товарищ Карл Маркс со своим братом Фридрихом Энгельсом.

Вот — файл «до» авто-преобразования, а вот — файл «после». В ближайшее время я постараюсь написать по этому поводу материальчик из серии «Уловки компьютерной крысы».

На сегодня всё! Пишите диссер, не валяйте дурака!

P.S.

Мне тут коллеги сделали замечание о том, что в найденных материалах мало полнотекстовых диссертаций. Не факт. Скорее всего, это — из-за пробного доступа к ProQuest. При полном доступе диссеров в первозданном виде должно быть «как грязи».

Но даже если конкретного «кирпича» в виде полнотекста, который вам нужен прямо позарез, в базе данных нет, то я бы не стал впадать в уныние.

Во-первых, автор и название диссертации известны. Поэтому сначала стоит пошариться в интернете. Возможно, что остепенившийся товарищ или его друганы́ уже выложили «кирпич» в открытый доступ.

Во-вторых, пошерстите университет или организацию, в которой состоялась защита. Не исключено, что она «висит» у них на сайте, или где-то ещё. Так, например, по запросу в Гугле «TUDelft Babur Dissertation» уже в 7-ой строке результатов поиска я нашёл ссылку на pdf-версию диссертации Галины Петровны Бабур. Эту ссылку, между прочим, я не нашёл на сайте собственно Делфтского университета технологии, в котором наша бывшая сотрудница и защитила PhD диссер в 2009 году. Но нашёл зато в другом месте, где даётся ссылка на опять же ресурсы TUDelft. Всё-таки трудно (или уже невозможно) в нынешних условиях утаить или заныкать что-либо в интернете, когда вездесущий Google простёр свои щупальца повсеместно.

В конце концов, перечитайте рассказ Чехова «Ванька», найдите электронные координаты автора, напишите email забугорному «Константину Макарычу», представьтесь его коллегой и попросите диссер на время — «для почитать». Не звери же люди там! Могут и откликнуться, между прочим. А ежели пустить полуведёрную слезу и подпустить лести: «Я пишу Вам, как всемирно известному во всех закоулках Вселенной учёному…»?