Как редактировать mht файл
Редактирование сохраненных из Интернета веб-страниц
В предыдущей статье было рассказано, в каких форматах можно сохранять веб-страницы из Интернета для их дальнейшего хранения на своем компьютере.
Конечно, их можно хранить на своем компьютере и в том виде, в котором они и сохранились, но в этом случае их внешний вид будет желать лучшего. На странице будут присутствовать элементы, которые не несут в себе никакой информации. Это пункты или кнопки навигации, рекламные баннеры и блоки, различные счетчики рейтингов и статистики и так далее.
Чтобы придать странице более привлекательный вид и уменьшить ее объем, хотя при нынешних объемах жестких дисков об этом вроде бы и не стоит беспокоиться, ее можно отредактировать. Для редактирования в каком-либо веб-редакторе, какие-то минимальные знания по работе с ним все же желательны. Вот об этом и пойдет речь ниже.
Один файл веб-архива
Один файл веб-архива (*.mht), на мой взгляд, редактированию не подлежит, по крайней мере, мне такой способ неизвестен.
При этом способе сохраняется только находящийся на веб-странице текст. Нет абсолютно графики, но ненужного текста достаточно много. Редактируется в любом текстовом редакторе. Файл получается очень маленьким по объему. Если редактировать в программе Блокнот, то «приукрасить» файл не получится. Если в Microsoft Word или аналогичной, то по своему желанию можно задать вид штифта и его размер, цвет, и все остальное, что позволяет делать сама программа.
Но все же веб-страница, это формат HTML, и я рекомендую сохранять страницы из Интернета только в этом формате. Хотя бы потому, что если на веб-странице присутствуют гиперссылки, то при сохранении двумя описанными ниже способами они будут работать, а ярлычок сохраняемых документов будет единым и красивым, в зависимости от используемого вами браузера. В программе «Блокнот» гиперссылки не работают.
В этом отношении, программа Блокнот абсолютно «чиста». Вставляется только текст и никаких тегов.
Веб-страница, только HTML
При этом способе сохранения, веб-страница копируется на жесткий диск компьютера единым HTML-файлом, без какой-либо графики, но рамки от нее присутствуют, и их бывает достаточно много. Так же на странице находятся и другие ненужные элементы. С помощью веб-редактора придадим сохраняемой странице более привлекательный и компактный вид. Этих приемов тоже несколько.
Быстрый способ редактирования
Открываем подлежащий обработке HTML-файл в каком-либо веб-редакторе, я работаю с программой FrontPage 2003, и все описанные операции относятся конкретно к нему, вы открываете тот веб-редактор, с которым привыкли работать. В открытом документе очень хорошо просматривается его структура (верстка). Можно удалить все ненужное, а его иногда бывает очень много, и оставить только статью. Можно наоборот, взять только статью, а все ненужное оставить на редактируемой странице и затем эту страницу удалить.
Как правило, текст статьи находится в отдельной ячейке таблицы, но не всегда. Выделяем ячейку со статьей, о способах выделения будет рассказано подробнее чуть ниже, копируем ее в буфер обмена. Не закрывая веб-редактор, создаем, пустую страницу, и вставляем в нее, скопированную ячейку со статьей. Как правило, при этом сохраняются все элементы форматирования (цвет фона ячейки, шрифт и его цвет и так далее). Присутствующие в статье гиперссылки, в отредактированном документе будут работать. Статья и в оригинале, и в сохраняемом файле по внешнему ввиду абсолютно идентичны. Можно закрыть и удалить оригинал веб-страницы, а если не уверены в результате, то это можно сделать и позже.
Переходите в режим просмотра HTML-кода сохраненной веб-страницы. В теге title будет написано «Новая страница». Удаляете эту запись и вместо ее вставляете название (заголовок) статьи. Далее в зависимости от ваших познаний в HTML, если не знаете, то лучше ничего не трогать, удаляете все, что посчитаете лишним. Например, лишние META-теги, все Java-скрипты, коды счетчиков статистики и рейтингов и т.д. Если статья узкая по ширине, то задаете свой размер и все остальное по своему желанию.
В процессе удаления, в спешке или по незнанию, можно удалить и что-то полезное. Поэтому необходимо периодически переходить из режима просмотра HTML-кода, в режим просмотра веб-страницы, особенно на начальном этапе освоения этого метода. Удалили что-то в HTML-коде, посмотрели, все ли на месте на редактируемой странице. Если все нормально, то сохраните изменения (файл/сохранить). Если чего-то не хватает, то ни в коем случае не выбирайте «файл/сохранить». В этом случае закройте редактируемый файл. Программа спросит вас, сохранить или нет внесенные изменения. Необходимо выбрать «нет». Затем вновь откройте редактируемый файл в веб-редакторе, и то, что вы нечаянно удалили, будет на месте.
Закончив редактировать файл, при выходе, не забудьте его сохранить. Затем его закрываете, при этом веб-редактор предложит вам сохранить его в папке «Мои документы», как index.html, если конечно, до этого момента вы еще не производили сохранение. Вы соглашаетесь, то есть, ничего не меняя, нажимаете кнопку «Сохранить». Если больше не будете обрабатывать файлы, то веб-редактор можно закрыть и удалить исходный файл.
В папке «Мои документы» дважды кликаете на файле index.html, который откроется в установленном у вас по умолчанию веб-браузере (Internet Explorer, Opera или другой). Выбираете «файл/сохранить как. «. Здесь вам необходимо выбрать конкретную папку, в которой планируете хранить этот документ. Имя файла будет стоять то, что находится в теге title, и это всегда так, по крайней мере, в Internet Explorer. Тип файла выбираете «Веб-страница, только HTML».
При некотором опыте и сноровке, на редактирование одного файла этим способом, уходит менее минуты времени. Если вы собрались редактировать большое количество файлов, то папка «Мои документы» постоянно должна быть открыта, и веб-редактор тоже. Причем, для меня лично, удобней и быстрей работать, когда оба окна открыты не на весь экран, а в настройках операционной системы (кнопка пуск\панель управления\свойства папки\вкладка общие) выбран пункт «открывать каждую папку в отдельном окне».
Вообще то, операционная система позволяет некоторые операции выполнять несколькими способами, поэтому, немного потренировавшись, вы выберете для себя свой, удобный для вас стиль работы.
Более медленный способ редактирования
Иногда требуется, наоборот, удалить все лишнее, а статью и еще что-либо на странице оставить. Выполняется это командой: пункт меню «Правка» и далее строка «Вырезать», а иногда более удобней и быстрее, особенно, если у вас монитор 19-и дюймовый или более, это кликнуть правой кнопкой мышки (обязательно на выделенном месте) и далее «Вырезать». Но главное в этом деле, это выделение удаляемого объекта. Их достаточно много и об этом пойдет речь ниже.
Чтобы выделить графику или рамку, где она должна быть, нужно кликнуть левой кнопкой мышки по ней, но лучше кликать сразу правой. Разницу увидите при практической работе. Экономится один клик и не надо вести указатель мышки к пункту меню «Правка». Можно произвести выделение и традиционным способом. Нажав левую кнопку и не отпуская ее, ведете указатель слева-направо, и объект выделяется.
Текст так же выделяется традиционным способом, и повторяться не буду. Можно сделать и так. Подводите курсор слева к любой строке текста, и когда он примет вид белой наклонной стрелки, нажимаете левую кнопку. Не отпуская кнопки, перемещяете курсор вверх или вниз на столько строк, сколько желаете удалить, и отпускаете кнопку. Действует этот способ только тогда, когда текст не прижат вплотную к левой границе ячейки.
Ячейки, так же можно выделять традиционным способом, а можно и так. Подводите курсор к левой, либо верхней границе ячейки, и когда он примет вид маленькой черной стрелки, кликаете левой кнопкой, но лучше, опять же, правой. При таком способе может выделиться группа ячеек по вертикали или горизонтали, но не всегда. Можно попробовать перемещать черненькую стрелку слева-направо или, в другом случае, сверху-вниз. Выделенные ячейки или группа ячеек, меняют цвет на более темный или черный в зависимости от цвета их фона. Это заметно всегда.
Сколько ячеек выделится при том, или ином способе, зависит от структуры редактируемой страницы. Иногда, бывает довольно трудно уловить момент появления черной стрелки, но, потренировавшись, это получается практически всегда. На редактирование одного файла этим способом, в зависимости от сложности веб-страницы, затрачивается до пяти минут.
При этом способе веб-страница сохраняется двумя файлами. HTML-файл и папка с графическими файлами. Как редактировать HTML-файл, было рассказано выше. Можно использовать оба метода. То есть, можно копировать статью вместе с графикой и вставлять в новую страницу, а можно удалить все ненужное, а статью с графикой оставить. Если статья с картинками, то сохранять полученный результат необходимо как «Веб-страница, полностью».
В папке с графикой, которая иногда имеет внушительный вес, необходимо оставить только то, что относится к статье, а остальное удалить. Необходимо оставить также файл каскадных таблиц стилей (обычно файл-CSS).
Из этой папки, иногда приходится удалять несколько десятков файлов. Конечно, можно удалять их поштучно, а можно и группами, в зависимости от их расположения в папке. Делается это так. Ставите курсор слева от подлежащего удалению файла, нажимаете левую кнопку мышки и, не отпуская ее, ведете курсор вправо. Файлы начинают выделяться. Можно вести курсор не только вправо, но одновременно и вниз, при этом выделяется большее количество файлов. При этом нужно следить, чтобы в выделяемый прямоугольник не попал файл, который необходимо оставить.
Полученные после редактирования файлы имеют, против оригинала, значительно меньший вес, а открытые в браузере, по внешнему виду практически от него не отличаются.
Дата публикации: 8 ноября 2007
Автор публикации: Валерий Киселев
Открытие файла формата MHT
Файл формата MHT – это веб-страница, преобразованная в архив. В нем содержится весь HTML, CSS, JS код страницы, медиа-файлы, изображения и т.д. Все это занесено в один файл, который можно открыть через специальные программы для компьютера. Далее разберем, через какие конкретные программы и с какими особенностями может столкнуться пользователь.
Как открыть файл формата MHT
Так как это веб-архив, то с ним должны уметь работать браузеры. Это действительно так, правда, не все веб-обозреватели его умеют открывать, а некоторые, например, Safari и вовсе не поддерживают работу с форматом MHT. Помимо браузеров с открытием MHT без проблем справляются и другие программы, которые могут быть на вашем компьютере.
Далее рассмотрим все доступные варианты открытия файла данного формата.
Вариант 1: Internet Explorer
Internet Explorer – один из браузеров, который уже по умолчанию включен в Windows С его помощью можно запустить веб-архив MHT.
К сожалению, пользователям Windows 10 придется использовать тоже Internet Explorer, а встроенный Edge. Дело в том, что последний не поддерживает нормальное открытие файлов с ПК.
Вариант 2: Google Chrome
Несмотря на то, что Google Chrome по умолчанию не встроен в Windows, он является самым популярным веб-браузером в мире. С его помощью тоже можно открыть файл формата MHT.
Вместо выполнения данной инструкции вы можете просто перетащить нужный файл прямо в интерфейс Google Chrome из папки в Windows. Открытие произойдет автоматически. Google Chrome корректно работает с архивами формата MHT.
Вариант 3: Opera
В новых версиях Opera открытие MHT-файла происходит по аналогичной инструкции, что и в Google Chrome:
Вы можете просто перетащить нужный файл прямо в интерфейс Opera из папки в Windows.
Имеется категория пользователей, которые пользуются Opera на старом движке Presto, так как в некоторых аспектах он удобнее и функциональней новых версий. В нем можно открыть MHT-файл по аналогичной инструкции или воспользоваться альтернативной:
Вариант 4: Яндекс Браузер
Еще одно популярное решение, во всяком случае на территории России и некоторых других стран СНГ. Процесс открытия архива MHT происходит следующим образом:
Вместо выполнения представленной инструкции вы можете просто перетащить нужный файл прямо в интерфейс Opera из папки в Windows.
Вариант 5: Mozilla Firefox
К сожалению, Mozilla Firefox не может напрямую работать с MHT-архивами, хотя это один из самых популярных браузеров в мире. Обойти этот недостаток веб-обозревателя можно, скачав и установив в него специальное дополнение:
Теперь вы можете открыть архивы MHT через интерфейс Mozilla Firefox:
Также вы можете просто перетащить нужный файл прямо в интерфейс Firefox из папки в Windows.
Вариант 6: Vivaldi
Молодой, но известный в определенных кругах веб-браузер. Процесс открытия файла MHT через него выглядит так:
Вы можете просто перетащить нужный файл прямо в интерфейс браузера из папки в Windows.
Вариант 7: Maxthon
Еще один браузер, известный в небольших кругах. Он достаточно функционален, в том числе поддерживает работу с веб-архивами формата MHT:
Вариант 8: Microsoft Word
С открытием веб-архивов без проблем справляется текстовый процессор Word, правда, его функционал в этом плане более ограничен по сравнению с браузерами. Скорее это решение подойдет для ознакомления с текстовым содержимым файла архива.
Лучше всего взаимодействовать с фалом MHT через веб-браузеры, а не через Word, просто потому что содержимое отображается более корректно. Однако в браузерах вы можете только просматривать содержимое, а в Word еще и редактировать, правда, если речь идет о редактировании, то лучше использовать профессиональные редакторы кода.
Что такое файл MHT?
Как открыть, редактировать и конвертировать файлы MHT
Как открыть MHT файлы
Вероятно, самый простой способ открыть файлы MHT – это использовать веб-браузер, такой как Internet Explorer, Google Chrome, Opera или Mozilla Firefox (с расширением формата архива Mozilla).
Вы также можете просмотреть MHT-файл в Microsoft Word и WPS Writer.
Редакторы HTML также могут открывать файлы MHT, такие как WizHtmlEditor и BlockNote.
Текстовый редактор также может открывать MHT-файлы, но так как файл может также содержать нетекстовые элементы (например, изображения), вы не сможете увидеть эти объекты в текстовом редакторе.
Как конвертировать файл MHT
CoolUtils.com – это онлайн-конвертер файлов, который может конвертировать MHT-файл в PDF.
Мастер Turgs MHT может преобразовать файл MHT в форматы файлов, такие как PST, MSG, EML/EMLX, PDF, MBOX, HTML, XPS, RTF и DOC. Это также простой способ извлечь нетекстовые файлы страницы в папку (как и все изображения). Имейте в виду, однако, что этот конвертер MHT не является бесплатным, поэтому пробная версия ограничена.
Doxillion Document Converter может работать как бесплатный конвертер файлов MHT. Еще один конвертер MHTML, который сохраняет файлы MHT в HTML.
Больше информации о формате MHT
MHT-файлы очень похожи на HTML-файлы. Разница в том, что HTML-файл содержит только текстовое содержимое страницы. Любые изображения, видимые в файле HTML, на самом деле являются просто ссылками на онлайн или локальные изображения, которые затем загружаются при загрузке файла HTML.
Файлы MHT отличаются тем, что на самом деле они хранят файлы изображений (и другие, такие как аудиофайлы) в одном файле, поэтому даже если сетевые или локальные изображения удаляются, файл MHT все еще можно использовать для просмотра страницы и других файлов. Вот почему файлы MHT так полезны для архивирования страниц: файлы хранятся в автономном режиме и в одном легкодоступном файле независимо от того, существуют ли они в сети.
Любые относительные ссылки, которые указывали на внешние файлы, переназначаются и указывают на ссылки, содержащиеся в файле MHT. Вам не нужно делать это вручную, поскольку это делается для вас в процессе создания MHT.
Формат MHTML не является стандартным, поэтому, хотя один веб-браузер может без проблем сохранять и просматривать файл, вы можете обнаружить, что открытие одного и того же файла MHT в другом браузере делает его немного другим.
Поддержка MHTML также не доступна по умолчанию в каждом веб-браузере. Некоторые браузеры не поддерживают его. Например, хотя Internet Explorer может сохранять в MHT по умолчанию, пользователи Chrome и Opera должны включить эту функцию.
Все еще не можете открыть файл?
Если это не так, это может быть что-то очень похожее на MTH. К сожалению, только потому, что буквы выглядят одинаково, не означает, что форматы файлов одинаковы или связаны. MTH-файлы представляют собой файлы Derive Math, используемые системой извлечения Texas Instrument, и их нельзя открыть или преобразовать так же, как это делают файлы MHT.
NTH аналогичен, но используется для файлов тем Nokia Series 40, которые открываются в Nokia Series 40 Theme Studio.
Другим расширением файла, похожим на MHT, является MHP, предназначенное для файлов Maths Helper Plus, используемых с Maths Helper Plus от Teachers ‘Choice Software.
Евгений Степанищев
Позже, после того, как я уже написал эту статью, мне прислали необходимое уточнение. Я провёл несколько экспериментов, попросил своих друзей и знакомых опросить своих друзей и знакомых и вот что выяснилось:
В некоторых версиях Windows XP, 2000 (закономерность не выявлена, но, видимо, дело в наличии каких-то Service Pack) и, кажется, во всех 2003, способ не работает, если расширение файла не mht. Это несколько сужает сферу применения данного способа.
Обход этой проблемы читайте в следующей статье. Далее сама статья:
Сегодня немного поколдуем, ок? Тем, кому не интересна кухня, где готовят внутренности сайтов, могут перейти к просмотру чего-то более интересного, остальные оставайтесь.
Браузеры всё больше превращаются в комбайны, которые поддерживают десятки схем доступа к данным, от всем известных file, ftp, http, https, до полузабытых gopher, finger, news и так далее. Среди этого списка есть интересная схема — data, который поддерживают уже, кажется, все браузеры, кроме Internet Explorer (включая беты седьмых версий). Для тех, кто незнаком с ним, общий вид строки запроса в этой схеме выглядит так:
смысл в том, что данные (картинки, javascript, другие ресурсы) можно помещать внутрь HTML. Эта схема является частью стандарта HTML 4.0, если я не ошибаюсь, но, в силу того, что она не поддерживается основным игроком на рынке браузеров, используется лишь эпизодически — чаще всего в интранет-приложениях и расширениях к Opera и Mozilla FireFox. Выглядит это, примерно, так:
Эта схема, кроме возможности помещать различные данные в HTML, имеет и более очевидные преимущества. Обычно, браузер открывает не более 2-4 соединений с сервером, через которые и получает данные. Если на странице очень много мелких картинок, браузер не имеет возможности загрузить и показать их одновременно — приходится ограничиваться означенным количеством соединений.
Мы, в нашей студии, обычно стараемся использовать карту ссылок, вместо нескольких мелких кнопок, например, для ускорения загрузки. Я очень много разговаривал с поисковиками Google и Yandex, но они уверены, что в IE внедрение ресурсов в HTML невозможно. Так ли это?
Нет. По крайней мере мне удалось найти минимум один способ сделать это. В интернете я ничего подобного не встретил, так что будет считать, что его изобрёл я. Натолкнула меня на эту мысль одна из кошмарных домашних страниц, которую сверстали в Microsoft Word и сохранили. в формате MHTML.
Этот формат первым начали использовать в браузере от Microsoft (поэтому его иногда расшифровывают как «Microsoft HTML») для того, чтобы можно было сохранять текст со всем содержимым — стилями, изображениями в одном файле, поэтому этот формат ещё называют веб-архивом (Web Archive). Чаще же всего его название расшифровывают как MIME HTML и в этом заключается главная проблема.
MIME HTML сильно отличается от обычного HTML форматом — внутри заголовок, информация об именах и форматах файлов, кодированные файлы изображений и так далее — более всего это похоже на файлы писем с вложениями (посмотрите исходный текст письма в своём почтовом клиенте). Нам было бы интересней, если бы в остальных браузерах показывалось бы что-то более похожее на HTML.
Просматривая веб-архив в браузере, я обнаружил, что IE отображает файлы архива через специальную схему — mhtml. У него есть интересная особенность — он позволяет адресовать файлы внутри веб-архива извне, вот так:
Причём, оказывается, браузер довольно вольно подходит к формату файла, лишь бы внутри были необходимые секции, что позволяет легко заключить архив внутрь HTML-комментария:
Те, кто знает как устроено обычное электронное письмо изнутри, разберутся и сами, для остальных расскажу. Строка, которую вы видите после слова «boundary», разделяет файл на секции. Секции начинаются с двух минусов и разделяющей строки. Заканчивается веб-архив разделяющей строкой, которая начинается и заканчивается двумя минусами — у меня завершающие минусы являются частью закрывающей части HTML-коментария. У секций есть заголовок:
Content-Location — имя файла внутри архива;
Content-Tranfer-Encoding — формат кодирования файла, экономичнее всего использовать base64;
Content-Type — MIME-тип файла;
если вы не знаете, что такое base64 и MIME-тип, то лучше обратиться к поисковику — такие вещи лучше знать. Первая секция с типом «text/html» — обязательная, без неё Internet Explorer не отобразит ваши файлы, остальные могут содержать данные любых типов. Ссылка может указывать на тот же самый или любой другой файл, который содержит веб-архив.
Я не уверен насчёт четвёртой версии браузера, но 5.0 и выше должны отобразить такой HTML нормально. У этого способа есть преимущество перед схемой data — на файл можно ссылаться несколько раз. Организация вывода разного контента для двух групп браузеров — сейчас довольно простая задача. Лучше всего, конечно, использовать для этого язык на стороне сервера (для JavaScript объёмы данных слишком значительные) — например, SSI или PHP.
Кстати, Opera 9 так же поддерживает веб-архивы, но использует для этой цели другую схему — «attachment». Но Opera 9 слишком мало распространена и, кроме того, этот браузер давно поддерживает схему «data».
Ещё хотелось бы упомянуть, что Internet Explorer поддерживает ещё одну схему, через которую, вероятно, можно получить доступ к ресурсам веб-архива — «mid», но я в этом не уверен и никаких экспериментов по этому поводу не проводил.
Чем открыть mht
Формат mht
Гораздо рациональнее для создания документа воспользоваться форматом mht, который создан специально для сохранения web-страниц в виде одного файла. По сути это архив, в котором запакована вся необходимая информация сохраненной страницы (текст, стили, скрипты, изображения, аудио и видеофайлы и т.д.). Первым браузером, в котором использовалось сохранение и открытие web-страниц с расширением mhtml, был Internet Explorer версии 5.0.
Браузеры, работающие с архивами mht
In addition to the browser, mht file you can open in the program Universal Viewer, designed to view files of different formats or in Microsoft Word. The latter is able to create web archives MHTML.
Как сохранить web-страницу в формате mht
To convert mht file to pdf you can open it using Microsoft PowerPoint. And then save using the menu function «Save as» and selecting from the list a pdf.
Как работать с web-архивами, используя Mozilla Firefox
Чтобы «научить» браузер Mozilla Firefox, работать с архивами mht придется установить дополнительные плагины:
— UnМHT — его можно найти по адресу: https://addons.mozilla.org/ru/firefox/addon/unmht/.
При установке этого расширение в меню появляются новые пункты — «Сохранить как MHT» и «Сохранить все вкладки как mht». Следует отметить полезную особенность данного плагина — он дает возможность сохранять не всю web-страницу целиком, а только нужный фрагмент, выделив его мышью. Кроме того, используя контентное меню, файл mht можно будет отправить по почте.
— Mozilla Archive Format — для его установки пройдите по адресу: https://addons.mozilla.org/ru/firefox/addon/mozilla-archive-format/. Используя это дополнения можно сохранять web-страницы не только в формате mht, но и в maff (формат, разработанный командой Mozilla). Кроме того, эти форматы можно конвертировать между собой. Также есть возможность сохранять в любом из представленных расширений все открытые вкладки.
If you need to not just open but also to edit the. mht file, you can use the free editor HTML Quick Edit Bar.