<?xml version="1.0" encoding="UTF-8"?><!-- generator="wordpress/2.1.3" -->
<rss version="2.0" 
	xmlns:content="http://purl.org/rss/1.0/modules/content/">
<channel>
	<title>Reacties op: Bewerken van HTML met NekoHTML</title>
	<link>http://blog.finalist.com/2008/05/13/bewerken-van-html-met-nekohtml/</link>
	<description>Nederlandse blog over software ontwikkeling</description>
	<pubDate>Thu, 16 Oct 2008 00:24:28 +0000</pubDate>
	<generator>http://wordpress.org/?v=2.1.3</generator>

	<item>
		<title>By: Peter Maas</title>
		<link>http://blog.finalist.com/2008/05/13/bewerken-van-html-met-nekohtml/#comment-19009</link>
		<author>Peter Maas</author>
		<pubDate>Tue, 13 May 2008 18:25:02 +0000</pubDate>
		<guid>http://blog.finalist.com/2008/05/13/bewerken-van-html-met-nekohtml/#comment-19009</guid>
					<description>Ja NekoHTML is erg handig! Bij de VPRO gebruik ik het om alleen een set van gewenste html elementen toe te staan in door externe gebruiker ingevoerde (rich) tekst. Een mooie tool die me nog nooit problemen heeft gegeven.</description>
		<content:encoded><![CDATA[<p>Ja NekoHTML is erg handig! Bij de VPRO gebruik ik het om alleen een set van gewenste html elementen toe te staan in door externe gebruiker ingevoerde (rich) tekst. Een mooie tool die me nog nooit problemen heeft gegeven.</p>
]]></content:encoded>
				</item>
	<item>
		<title>By: Erik van Oosten</title>
		<link>http://blog.finalist.com/2008/05/13/bewerken-van-html-met-nekohtml/#comment-19013</link>
		<author>Erik van Oosten</author>
		<pubDate>Tue, 13 May 2008 21:03:56 +0000</pubDate>
		<guid>http://blog.finalist.com/2008/05/13/bewerken-van-html-met-nekohtml/#comment-19013</guid>
					<description>Groot nadeel van het gebruik van XML als tussen formaat is dat het moet voldoen aan, eh... XML. Vandaar dat een parser als Jericho meestal minder problemen geeft voor het bewerken van HTML. Dit is met name zo voor oudere HTML.</description>
		<content:encoded><![CDATA[<p>Groot nadeel van het gebruik van XML als tussen formaat is dat het moet voldoen aan, eh&#8230; XML. Vandaar dat een parser als Jericho meestal minder problemen geeft voor het bewerken van HTML. Dit is met name zo voor oudere HTML.</p>
]]></content:encoded>
				</item>
	<item>
		<title>By: Rob van de Meulengraaf</title>
		<link>http://blog.finalist.com/2008/05/13/bewerken-van-html-met-nekohtml/#comment-19014</link>
		<author>Rob van de Meulengraaf</author>
		<pubDate>Wed, 14 May 2008 09:16:32 +0000</pubDate>
		<guid>http://blog.finalist.com/2008/05/13/bewerken-van-html-met-nekohtml/#comment-19014</guid>
					<description>@Erik 
NekoHTML zou ook moeten om kunnen gaan met niet al te correct HTML, het balanceert zelf tags etc. Maar Jericho kende ik nog niet, is daar wellicht nog beter in. Na een dag worstelen met regex en xpath etc. was ik al blij dat ik NekoHTML had gevonden.</description>
		<content:encoded><![CDATA[<p>@Erik<br />
NekoHTML zou ook moeten om kunnen gaan met niet al te correct HTML, het balanceert zelf tags etc. Maar Jericho kende ik nog niet, is daar wellicht nog beter in. Na een dag worstelen met regex en xpath etc. was ik al blij dat ik NekoHTML had gevonden.</p>
]]></content:encoded>
				</item>
	<item>
		<title>By: Lennaert</title>
		<link>http://blog.finalist.com/2008/05/13/bewerken-van-html-met-nekohtml/#comment-19015</link>
		<author>Lennaert</author>
		<pubDate>Wed, 14 May 2008 14:37:12 +0000</pubDate>
		<guid>http://blog.finalist.com/2008/05/13/bewerken-van-html-met-nekohtml/#comment-19015</guid>
					<description>Heb je ook gekeken naar tidy en de java implementatie jTidy?

jTidy kan niet alleen de html well-formed maken, maar ook valide (b.v. geen geneste p-elementen).

jTidy is te downloaden van http://jtidy.sourceforge.net/

Ik zou zelf jtidy (of NekoHTML) + xslt gebruiken, maar het opzetten van xslt voor dit eenvoudige voorbeeld is waarschijnlijk overkill :)</description>
		<content:encoded><![CDATA[<p>Heb je ook gekeken naar tidy en de java implementatie jTidy?</p>
<p>jTidy kan niet alleen de html well-formed maken, maar ook valide (b.v. geen geneste p-elementen).</p>
<p>jTidy is te downloaden van <a href="http://jtidy.sourceforge.net/" rel="nofollow">http://jtidy.sourceforge.net/</a></p>
<p>Ik zou zelf jtidy (of NekoHTML) + xslt gebruiken, maar het opzetten van xslt voor dit eenvoudige voorbeeld is waarschijnlijk overkill <img src='http://blog.finalist.com/wp-includes/images/smilies/icon_smile.gif' alt=':)' class='wp-smiley' /></p>
]]></content:encoded>
				</item>
	<item>
		<title>By: Rob van de Meulengraaf</title>
		<link>http://blog.finalist.com/2008/05/13/bewerken-van-html-met-nekohtml/#comment-19031</link>
		<author>Rob van de Meulengraaf</author>
		<pubDate>Thu, 15 May 2008 09:45:47 +0000</pubDate>
		<guid>http://blog.finalist.com/2008/05/13/bewerken-van-html-met-nekohtml/#comment-19031</guid>
					<description>NekoHTML heeft een heel scala aan mogelijkheden om HTML op te schonen, in te stellen via properties. De documentatie is misschien een beetje moeilijk te vinden op de site maar het staat wel in de docs in de download. 

Ik heb hier echter een voorbeeld willen laten zien van een probleem dat erg eenvoudig bleek te zijn op te lossen met NekoHTML (of met JTidy o.i.d.) en XML filters. XSLT zou het er niet eenvoudiger op maken in dit geval lijkt me.</description>
		<content:encoded><![CDATA[<p>NekoHTML heeft een heel scala aan mogelijkheden om HTML op te schonen, in te stellen via properties. De documentatie is misschien een beetje moeilijk te vinden op de site maar het staat wel in de docs in de download. </p>
<p>Ik heb hier echter een voorbeeld willen laten zien van een probleem dat erg eenvoudig bleek te zijn op te lossen met NekoHTML (of met JTidy o.i.d.) en XML filters. XSLT zou het er niet eenvoudiger op maken in dit geval lijkt me.</p>
]]></content:encoded>
				</item>
	<item>
		<title>By: Rikkert Koppes</title>
		<link>http://blog.finalist.com/2008/05/13/bewerken-van-html-met-nekohtml/#comment-19041</link>
		<author>Rikkert Koppes</author>
		<pubDate>Fri, 16 May 2008 07:41:23 +0000</pubDate>
		<guid>http://blog.finalist.com/2008/05/13/bewerken-van-html-met-nekohtml/#comment-19041</guid>
					<description>Hoe gaat ie om met optionele tags? bijvoorbeeld de html, body en head tags zijn optioneel, terwijl de elementen er wel altijd zijn (er is verschil tussen tags en elementen :))

Hoe gaat ie om met implicit closing van elementen? denk aan iets als &lt;b&gt;aap&lt;i&gt;noot&lt;/b&gt;mies&lt;/i&gt;, wat geparsed zou moeten worden als &lt;b&gt;aap&lt;i&gt;noot&lt;/i&gt;&lt;/b&gt;mies</description>
		<content:encoded><![CDATA[<p>Hoe gaat ie om met optionele tags? bijvoorbeeld de html, body en head tags zijn optioneel, terwijl de elementen er wel altijd zijn (er is verschil tussen tags en elementen :))</p>
<p>Hoe gaat ie om met implicit closing van elementen? denk aan iets als <b>aap<i>noot</i></b>mies, wat geparsed zou moeten worden als <b>aap<i>noot</i></b>mies</p>
]]></content:encoded>
				</item>
	<item>
		<title>By: Rikkert Koppes</title>
		<link>http://blog.finalist.com/2008/05/13/bewerken-van-html-met-nekohtml/#comment-19042</link>
		<author>Rikkert Koppes</author>
		<pubDate>Fri, 16 May 2008 07:43:07 +0000</pubDate>
		<guid>http://blog.finalist.com/2008/05/13/bewerken-van-html-met-nekohtml/#comment-19042</guid>
					<description>Hoe gaat ie om met optionele tags? bijvoorbeeld de html, body en head tags zijn optioneel, terwijl de elementen er wel altijd zijn (er is verschil tussen tags en elementen :))

Hoe gaat ie om met implicit closing van elementen? denk aan iets als &#60;b&#62;aap&#60;i&#62;noot&#60;/b&#62;mies&#60;/i&#62;, wat geparsed zou moeten worden als &#60;b&#62;aap&#60;i&#62;noot&#60;/i&#62;&#60;/b&#62;mies

(ai, er wordt niet ge-html escaped in de comment, bovenstaand geeft iig aan hoe het geparsed wordt)</description>
		<content:encoded><![CDATA[<p>Hoe gaat ie om met optionele tags? bijvoorbeeld de html, body en head tags zijn optioneel, terwijl de elementen er wel altijd zijn (er is verschil tussen tags en elementen :))</p>
<p>Hoe gaat ie om met implicit closing van elementen? denk aan iets als &lt;b&gt;aap&lt;i&gt;noot&lt;/b&gt;mies&lt;/i&gt;, wat geparsed zou moeten worden als &lt;b&gt;aap&lt;i&gt;noot&lt;/i&gt;&lt;/b&gt;mies</p>
<p>(ai, er wordt niet ge-html escaped in de comment, bovenstaand geeft iig aan hoe het geparsed wordt)</p>
]]></content:encoded>
				</item>
	<item>
		<title>By: Lennaert</title>
		<link>http://blog.finalist.com/2008/05/13/bewerken-van-html-met-nekohtml/#comment-19043</link>
		<author>Lennaert</author>
		<pubDate>Fri, 16 May 2008 08:05:04 +0000</pubDate>
		<guid>http://blog.finalist.com/2008/05/13/bewerken-van-html-met-nekohtml/#comment-19043</guid>
					<description>Ik prefereer xslt boven 'handmatig' sleutelen aan de dom-boom. En de template is volgens mij minstens zo eenvoudig:


    &lt;a href="{@href}?id={@customId}" rel="nofollow"&gt;
        
        
    &lt;/a&gt;


Maar ik ben een fan van xslt en daarom bevooroordeeld :)</description>
		<content:encoded><![CDATA[<p>Ik prefereer xslt boven &#8216;handmatig&#8217; sleutelen aan de dom-boom. En de template is volgens mij minstens zo eenvoudig:</p>
<p>    <a href="{@href}?id={@customId}" rel="nofollow"></p>
<p>    </a></p>
<p>Maar ik ben een fan van xslt en daarom bevooroordeeld <img src='http://blog.finalist.com/wp-includes/images/smilies/icon_smile.gif' alt=':)' class='wp-smiley' /></p>
]]></content:encoded>
				</item>
	<item>
		<title>By: Rob van de Meulengraaf</title>
		<link>http://blog.finalist.com/2008/05/13/bewerken-van-html-met-nekohtml/#comment-19080</link>
		<author>Rob van de Meulengraaf</author>
		<pubDate>Tue, 20 May 2008 09:07:49 +0000</pubDate>
		<guid>http://blog.finalist.com/2008/05/13/bewerken-van-html-met-nekohtml/#comment-19080</guid>
					<description>Dat wordt geparsed als &#60;b&#62;aap&#60;i&#038;gtnoot&#60;/i&#038;gt&#60;/b&#038;gt&#60;i&#038;gtmies&#60;/i&#038;gt. Dat lijkt me correct. 

Hoe met html, body en head tags wordt omgegaan is ook instelbaar, zo kun je verschillend omgaan met een volledig document of met een fragment.</description>
		<content:encoded><![CDATA[<p>Dat wordt geparsed als &lt;b&gt;aap&lt;i&#038;gtnoot&lt;/i&#038;gt&lt;/b&#038;gt&lt;i&#038;gtmies&lt;/i&#038;gt. Dat lijkt me correct. </p>
<p>Hoe met html, body en head tags wordt omgegaan is ook instelbaar, zo kun je verschillend omgaan met een volledig document of met een fragment.</p>
]]></content:encoded>
				</item>
</channel>
</rss>
