URLs aus einer HTML-datei extrahieren

Da fragt mich doch jemand, wie man mit einem regulären ausdruck und sed die URLs aus einer HTML-datei extrahieren kann. Meine erste reakzjon: „Damit ist sed ein bisschen überfordert, das wird eine sehr lange zeile“. Aber ich habe ja nochmal nachgedacht, und dann fiel mir ein, dass der textbrauser lynx dieses problem schon hervorragend löst, und etwa zwei minuten später ging die folgende funktion für die sh raus:

getlinks()
{
  for i
  do
    lynx -dump -listonly "$i" | sed 1,3d
  done | sed "s/ *[0-9]*\. *//" 
}

Diese funkzjon getlinks kann mit beliebig vielen HTML-dateien oder auch gültigen URLs als parameter aufgerufen werden, und lynx erledigt den größten teil der arbeit. Heraus kommt eine Liste mit den URLs, jede hübsch einzeln auf einer zeile und ohne weiteren kram, der die weitere verarbeitung in einem skript erschwert. Die ausgabe wird mit zwei sed-befehlen gefiltert. Der erste entfernt die laufenden nummern, die am anfang der zeilen stehen. Das sollte eigentlich auch mit der lynx-opzjon -nonumbers gehen, aber unglücklicherweise verstand der lynx auf der kiste, auf der dieses skript laufen sollte, ausgerechnet diese eine opzjon nicht und wir hatten keine lust, schnell einen neuen zu kompilieren. Der zweite audruck löscht einfach nur die ersten drei zeilen, die eine hier störende überschrift enthalten. Wer diese funkzjon benutzen will, sollte sich aber vorher einmal die ausgabe von lynx -dump -listonly anschauen, denn es ist nicht auszuschließen, dass die ausgabe in anderen versjonen ein bisschen anders aussieht.

Wenn es eine wirkliche stärke unixoider betriebssysteme gibt, denn ist es die art, wie man sich die bestehenden programme „zusammenstecken“ kann, um mit relativ wenig aufwand komplexe probleme zu lösen. Das war in den siebziger jahren schon ein starkes konzept, und es ist auch vierzig jahre später noch unendlich nützlich. Leider gerät es mit dem vordringen grafischer klickflächen immer mehr in vergessenheit, selbst bei menschen mit guten technischen kenntnissen — und in der folge werden viele probleme mit viel zu großem aufwand gelöst.

Advertisements

Twitter: unsern täglich fail gib uns heute

Niemanden mehr followen, keine follower mehr

Hihi, und wenn ich niemanden mehr folge, was sehe ich denn da auf meiner startseite? Aber das lustigste ist, wenn ich mir anschauen will, wem ich gerade folge: „Du hast noch keine Follower, aber das wird sich bald ändern“ — klar, wenn ich nicht immer wieder alle wegblocken würde, die reklame-nullbotschaften rauszwitschern und ein paar tausend leuten folgen (von denen leider immer wieder ein erklecklicher teil zurückfolgt), denn hätte ich wohl tausende…

Ob dieses zwitscherding wohl gerade an seinem spämmproblem arbeitet?

Ein ganz normaler tag…

Ein ganz normaler tag in einer BRD, in der die verbrecher reich werden und niemals einen knast von innen sehen, wenn sie ihre verbrechen nur groß und dreist genug machen:

Suchbegriffe eines tages mit einer deutlichen interessenspitze zu content4u und der dreisten abzockerei

So sieht es einen monat aus, nachdem die abzockerei mit einschüchternd formulierten mahnungen erstmals an mein ohr drang. Es ist eben der p’litisch gewünschte zustand, dass die BRD ein paradies für abzocker und betrüger ist und auch bleibt — denn diese betrugsnummern in der grauzone des rechtes laufen schon seit jahren.

Keine überraschung: „skype“ ist abhörbar

Dass „skype“ abhörbar ist — seien wir doch mal angesichts eines niemals offen gelegten protokolles ehrlich — ist keine so große überraschung. „Skype“ hatte als unternehmen nun einmal seinen sitz in europa, und so musste das unternehmen eben auch europäischen ermittlern zugriff ermöglichen, so sieht es nun einmal aus. Übrigens, nur am rande bemerkt: genau das gleiche gilt auch für die riesengroße volxverarschung, die zurzeit unter den namen „de-mail“ und „e-postbrief“ so tut, als ermögliche sie eine sichere kommunikazjon.

Wenn auch völlig unklar ist, welche techniken beim zoll (vermutlich auch bei der bundespolizei, bei den geheimdiensten und bei den landeskriminalämtern) zum einsatz kommen, um „skype“-gespräche abzuhören, ist eins doch klar: Skype ist auf keinen fall mehr als grundlage für eine vertrauliche kommunikazjon zu betrachten, und das ist keineswegs nur bei verbrechern so. Die möglichkeit, dass diese techniken außerhalb der richterlich kontrollierten polizeiarbeit angewendet werden ist jederzeit gegeben. Ob dabei ein korrupter polizeibeamter hilfestellung leistet, oder ob die gesamte technische infrastruktur zum mithören in andere hände gerät, ist eher unwichtig. Da, wo es sich für wirtschaftsspionage lohnt oder wo es ganz generell um geld geht (und sei es, um die angebotshöhe eines mitbewerbers in erfahrung zu bringen), da könnte schnell ein anreiz entstehen, ordentlich einfluss zu nehmen. Und irgendwann führt solche einflussnahme auch zum erfolg.

Die allgemeinen staatlichen begehrlichkeiten gegen jede verschlüsselte kommunikazjon bleiben natürlich auch bestehen.

Aber davon abgesehen: es ist mir eh unvorstellbar, warum man für eine „sichere kommunikazjon“ ausgerechnet auf die technische nachbildung eines telefongespräches über die infrastruktur des internetzes setzt und sich dann auch noch von einem einzigen dienstleister abhängig macht. Ist den menschen, die auf unbelauschtes austauschen angewiesen sind, denn gar nicht bewusst, dass es andere möglichkeiten gibt, von PGP-verschlüsselter mäjhl bis zu SIP-vermittelten kanälen für beliebige multimedjale inhalte, die über ein VPN getunnelt werden? Bei allen diesen vorgehensweisen (es gibt wohl noch etliche mehr) hätte man die gesamte infrastruktur der kryptografie selbst unter kontrolle und wäre völlig unabhängig von letzlich unkontrollierbaren und korrumpierbaren dienstleistern. Wer auf diese „skype“-scheiße baut, belegt damit nur, dass er technisch dumm ist und allein deshalb kein geeigneter partner für die kommunikazjon über inhalte ist, die etwas empfindlicher sind. Denn bei einem technisch dummen partner am andere ende muss man davon ausgehen, dass der kompjuter des technisch dummen partners korrumpiert ist, und da nützt denn alle schöne verschlüsselung auf dem weg nichts mehr…

Die ironie vergessener ideale

GNU/Linux bekommt in letzter Zeit mehr Anhänger. Das System wird aus praktischen Gründen populär. Es ist ein gutes System. Die Gefahr dabei ist, dass Leute Linux eben wegen dieser praktischen Gründe mögen und keine Ahnung haben von den Idealen, die dem System zugrunde liegen. Das wäre schon eine ironische Art, zu scheitern.

Richard Stallman

Genialität

Manchmal versteckt sich die völlig unreflektierte schleichwerbung auch in einem scheinbar kritischen artikel der jornallje, wie etwa bei der FAZ in einem „harmlosen“ kleinen adjektiv:

[…] dass es Apple und seinen genialen Technikern Paroli bieten kann.

Was zum henker ist an den technikern bei äppel „genial“? Ist es…

  • …die unfähigkeit, auf den pädds und fohns ein betriebssystem zu schreiben, das multitasking kann,
  • …die künstliche technikverhinderung, die einem käufer dieser geräte daran hindert, mit diesen geräten das technisch mögliche zu machen, wenn er das tun will; oder
  • …die optische form, in der sich so ein überteuerter, seine käufer enteignender schrott dem nutzer präsentiert und ihn das gefühl geiler technik gibt, während er ziemlichen mist in der hand hält?

Aber ist schon klar, äppel ist genial. Und die FAZ macht völlig unabhängigen jornalismus, der nur den tatsachen verpflichtet ist und von nichts und niemanden gekauft werden kann.