Jeg har +3.000 tekstdokumenter (*.html), som gennem årene er blevet gemt med forskellige tegnsæt (ISO-8859-1, Windows 1252 m.fl.). Jeg skal/vil have dem allesammen ændret til UTF-8.
Hvordan laver jeg en søgning efter alle de dokumenter der er (eller ikke er) UTF-8?
Kan jeg få listet alle HTML-filer hvor jeg kan se denne attribut (altså tegnsæt)?
P.S. Det ville jo være dejligt om der kan laves en batch-konvertering, men det har jeg prøvet på forskellig vis, men det er ikke lykkedes at finde en metode som ikke samtidig ændrer kodningen af selve dokumentets indhold.
Måske dette kan hjælpe dig lidt på vej. check-and-convert-file-enconding-charset & how-to-find-encoding-of-a-file-via-script
Mange tak. I første omgang har jeg nu fået identificeret de filer der skal omkodes. Derefter vil jeg forsøge mig med en batchkonvertering, men netop iconv (link 1) har drillet mig tidligere, så jeg skal gå med livrem og seler.
Kåret som bedste indlæg af trådens forfatter |
Da der er tale om HTML-dokumenter, vil jeg gå ud fra at der er 2 separate problemer: Et er selve arkivets tegnsæt, det format dokumentet er arkiveret i, og det andet er tegnsætangivelsen i HTML-koden.
Begge dele kan let løses med BBEdit; En helt fantastisk teksteditor, som kan prøves i fuld version ganske gratis i 30 dage, hvorefter den skifter til en gratisudgave uden de avancerede funktioner. Før hed den gratis udgave BBEdit Lite, og senere TextWrangler, men nutildags er der kun én BBEdit version for alle.
Sådan ændrer du arkivets tegnsæt:
Sådan ændrer du tegnsætangivelsen i HTML-koden: