Was wäre wohl die beste Herangehensweise für das Extrahieren von URLs aus einer HTML Datei?
Mein Ziel wäre es, sämtliche Urls zu extrahieren (Absolute und Relative).
Egal ob sie in einem <a> Tag einem <script> Tag,als stylesheet Import oder innerhalb eines Javascripts vorkommen.
Beispiele:
@import url("http://site.com/modules/search/search.css?livi2r");
<script type="text/javascript" src="http://site.com/misc/drupal.js?livi2r"></script>
<a href="index.html" title="Site">Site</a>
Mit regulären Ausdrücken bin ich nicht sehr weit gekommen, nun frage ich mich ob es einen geeigneten Parser für diese Aufgabe gibt.
Würde mich über Vorschläge freuen!
Mein Ziel wäre es, sämtliche Urls zu extrahieren (Absolute und Relative).
Egal ob sie in einem <a> Tag einem <script> Tag,als stylesheet Import oder innerhalb eines Javascripts vorkommen.
Beispiele:
@import url("http://site.com/modules/search/search.css?livi2r");
<script type="text/javascript" src="http://site.com/misc/drupal.js?livi2r"></script>
<a href="index.html" title="Site">Site</a>
Mit regulären Ausdrücken bin ich nicht sehr weit gekommen, nun frage ich mich ob es einen geeigneten Parser für diese Aufgabe gibt.
Würde mich über Vorschläge freuen!