

<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Rodrigo Kumpera Weblog &#187; Performance</title>
	<atom:link href="http://www.kumpera.net/blog/index.php/category/performance/feed/" rel="self" type="application/rss+xml" />
	<link>http://www.kumpera.net/blog</link>
	<description>Meus achados sobre tecnologia</description>
	<lastBuildDate>Thu, 14 Jul 2011 15:45:23 +0000</lastBuildDate>
	<generator>http://wordpress.org/?v=2.8.6</generator>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
			<item>
		<title>Implementando Haskell em VMs tradicionais (parte 2)</title>
		<link>http://www.kumpera.net/blog/index.php/2010/01/09/implementando-haskell-em-vms-tradicionais-parte-2/</link>
		<comments>http://www.kumpera.net/blog/index.php/2010/01/09/implementando-haskell-em-vms-tradicionais-parte-2/#comments</comments>
		<pubDate>Sat, 09 Jan 2010 23:30:36 +0000</pubDate>
		<dc:creator>kumpera</dc:creator>
				<category><![CDATA[Performance]]></category>
		<category><![CDATA[Programming language Theory]]></category>
		<category><![CDATA[language design]]></category>
		<category><![CDATA[mono]]></category>
		<category><![CDATA[haskell]]></category>
		<category><![CDATA[VM]]></category>

		<guid isPermaLink="false">http://www.kumpera.net/blog/?p=149</guid>
		<description><![CDATA[Retomando a questão sobre como implementar Haskell em VMs tradicionais, vamos ver um dos aspectos mais complicados, thunking, de implementar de forma eficiente. Um dos aspectos que surpreende a maioria dos que usam Haskell pela primeira vez é o fato da linguagem ser lazy evaluated, isto é, o valor de uma expressão só é computado [...]]]></description>
			<content:encoded><![CDATA[<p>Retomando a questão sobre <a href="http://www.kumpera.net/blog/index.php/2009/09/10/implementando-haskell-em-vms-tradicionais-parte-1/">como implementar Haskell em VMs tradicionais</a>, vamos ver um dos aspectos mais complicados, thunking, de implementar de forma eficiente. Um dos aspectos que surpreende a maioria dos que usam Haskell pela primeira vez é o fato da linguagem ser lazy evaluated, isto é, o valor de uma expressão só é computado quando for usado, mesmo entre chamadas funções. Vejamos um exemplo simples:</p>

<div class="wp_syntax"><div class="code"><pre class="haskell" style="font-family:monospace;">square a <span style="color: #339933; font-weight: bold;">=</span> a <span style="color: #339933; font-weight: bold;">*</span> a
&nbsp;
square<span style="color: #339933; font-weight: bold;">_</span>of<span style="color: #339933; font-weight: bold;">_</span>sum a b <span style="color: #339933; font-weight: bold;">=</span> square <span style="color: green;">&#40;</span>a <span style="color: #339933; font-weight: bold;">+</span> b<span style="color: green;">&#41;</span></pre></div></div>

<p>Nesse exemplo, quando square_of_sum chama square, o parâmetro passado não é o resultado de a + b, mas sim algo próximo a uma closure que irá calcular a + b. Quando square for avaliada, ela precisará do valor de &#8216;a&#8217;, então usará a closure que recebeu como parâmetro para tal. Ou melhor, funciona quase assim, Haskell implementa um mecanismo chamado call-by-need, que resolve o valor uma única vez na primeira vez que for necessário memorizando o resultado. Isso significa que no caso de square &#8216;a&#8217; será avaliada uma única vez. Por conta da memorização, não usamos o termo closure, mais sim thunk para descrever o que uma função passa para outra.</p>
<p>Outro detalhe importante, chamadas de função também são lazy evaluated, então tanto square, quanto square_of_sum na verdade retornam thunks para os valores em questão. Essa coisa toda pode parecer extremamente ineficiente a primeira vista e de fato é. Tanto que o GHC gera código sem uso de thunk sempre que conseguir provar que um pedaço de código pode ser strict evaluated [1].</p>
<p>Antes de imaginar como implementar isso em uma VM como a CLR, vamos traduzir nosso exemplo para C# [2]:</p>

<div class="wp_syntax"><div class="code"><pre class="csharp" style="font-family:monospace;">&nbsp;
<span style="color: #FF0000;">class</span> Thunk<span style="color: #008000;">&lt;</span>T<span style="color: #008000;">&gt;</span> <span style="color: #000000;">&#123;</span>
	T value<span style="color: #008000;">;</span>
	Func<span style="color: #008000;">&lt;</span>T<span style="color: #008000;">&gt;</span> closure<span style="color: #008000;">;</span>
	<span style="color: #FF0000;">bool</span> resolved<span style="color: #008000;">;</span>
&nbsp;
	<span style="color: #0600FF;">public</span> Thunk <span style="color: #000000;">&#40;</span>Func<span style="color: #008000;">&lt;</span>T<span style="color: #008000;">&gt;</span> closure<span style="color: #000000;">&#41;</span> <span style="color: #000000;">&#123;</span>
		<span style="color: #0600FF;">this</span>.<span style="color: #0000FF;">closure</span> <span style="color: #008000;">=</span> closure<span style="color: #008000;">;</span>
	<span style="color: #000000;">&#125;</span>
&nbsp;
	<span style="color: #0600FF;">public</span> T Value <span style="color: #000000;">&#123;</span>
		get <span style="color: #000000;">&#123;</span>
			<span style="color: #0600FF;">if</span> <span style="color: #000000;">&#40;</span><span style="color: #008000;">!</span>resolved<span style="color: #000000;">&#41;</span> <span style="color: #000000;">&#123;</span>
				value <span style="color: #008000;">=</span> closure <span style="color: #000000;">&#40;</span><span style="color: #000000;">&#41;</span><span style="color: #008000;">;</span>
				resolved <span style="color: #008000;">=</span> true<span style="color: #008000;">;</span>
				closure <span style="color: #008000;">=</span> null<span style="color: #008000;">;</span>
			<span style="color: #000000;">&#125;</span>
			<span style="color: #0600FF;">return</span> value<span style="color: #008000;">;</span>
		<span style="color: #000000;">&#125;</span>
	<span style="color: #000000;">&#125;</span>
<span style="color: #000000;">&#125;</span>
&nbsp;
Thunk<span style="color: #008000;">&lt;</span><span style="color: #FF0000;">int</span><span style="color: #008000;">&gt;</span> square <span style="color: #000000;">&#40;</span>Thunk <span style="color: #008000;">&lt;</span><span style="color: #FF0000;">int</span><span style="color: #008000;">&gt;</span> a<span style="color: #000000;">&#41;</span> <span style="color: #000000;">&#123;</span>
	<span style="color: #0600FF;">return</span> <span style="color: #008000;">new</span> Thunk<span style="color: #008000;">&lt;</span><span style="color: #FF0000;">int</span><span style="color: #008000;">&gt;</span> <span style="color: #000000;">&#40;</span><span style="color: #000000;">&#40;</span><span style="color: #000000;">&#41;</span> <span style="color: #008000;">=&gt;</span> a.<span style="color: #0000FF;">Value</span> <span style="color: #008000;">*</span> a.<span style="color: #0000FF;">Value</span><span style="color: #000000;">&#41;</span><span style="color: #008000;">;</span>
<span style="color: #000000;">&#125;</span>
&nbsp;
Thunk<span style="color: #008000;">&lt;</span><span style="color: #FF0000;">int</span><span style="color: #008000;">&gt;</span> square_of_sum <span style="color: #000000;">&#40;</span>Thunk <span style="color: #008000;">&lt;</span><span style="color: #FF0000;">int</span><span style="color: #008000;">&gt;</span> a, Thunk<span style="color: #008000;">&lt;</span><span style="color: #FF0000;">int</span><span style="color: #008000;">&gt;</span> b<span style="color: #000000;">&#41;</span> <span style="color: #000000;">&#123;</span>
	Thunk<span style="color: #008000;">&lt;</span><span style="color: #FF0000;">int</span><span style="color: #008000;">&gt;</span> a_plus_b <span style="color: #008000;">=</span> <span style="color: #008000;">new</span> Thunk<span style="color: #008000;">&lt;</span><span style="color: #FF0000;">int</span><span style="color: #008000;">&gt;</span> <span style="color: #000000;">&#40;</span><span style="color: #000000;">&#40;</span><span style="color: #000000;">&#41;</span> <span style="color: #008000;">=&gt;</span> a.<span style="color: #0000FF;">Value</span> <span style="color: #008000;">+</span> b.<span style="color: #0000FF;">Value</span><span style="color: #000000;">&#41;</span><span style="color: #008000;">;</span>
	<span style="color: #0600FF;">return</span> square <span style="color: #000000;">&#40;</span>a_plus_b<span style="color: #000000;">&#41;</span><span style="color: #008000;">;</span> <span style="color: #008080; font-style: italic;">//Já que square produz um thunk, não precisamos criar outro.</span>
<span style="color: #000000;">&#125;</span></pre></div></div>

<p>Bem confuso, de certo. Primeiro a implementação de Thunk, simples e direta, já square_of_sum precisa de uma variável local para ficar minimamente legível. Uma coisa é fato, C# não foi feita para ser usada com lazy evaluation.</p>
<p>Existe alguns problema quanto a eficiencia de fazer dessa forma. O maior deles é como lidar quando alguns valores já estão resolvidos e temos ainda assim criar um thunk para satisfazer o função chamada. A forma como GHC lida isso é passando todos parâmetros boxed de forma que é possível misturar thunks e valores sem problema. A função square, do nosso exemplo anterior ficaria assim:</p>

<div class="wp_syntax"><div class="code"><pre class="csharp" style="font-family:monospace;">&nbsp;
Thunk<span style="color: #008000;">&lt;</span><span style="color: #FF0000;">int</span><span style="color: #008000;">&gt;</span> square <span style="color: #000000;">&#40;</span><span style="color: #FF0000;">object</span> a<span style="color: #000000;">&#41;</span> <span style="color: #000000;">&#123;</span>
	<span style="color: #0600FF;">return</span> <span style="color: #008000;">new</span> Thunk<span style="color: #008000;">&lt;</span><span style="color: #FF0000;">int</span><span style="color: #008000;">&gt;</span> <span style="color: #000000;">&#40;</span><span style="color: #000000;">&#40;</span><span style="color: #000000;">&#41;</span> <span style="color: #008000;">=&gt;</span> <span style="color: #000000;">&#123;</span>
		<span style="color: #FF0000;">int</span> val<span style="color: #008000;">;</span>
		<span style="color: #0600FF;">if</span> <span style="color: #000000;">&#40;</span>a <span style="color: #008000;">is</span> <span style="color: #FF0000;">int</span><span style="color: #000000;">&#41;</span>
			val <span style="color: #008000;">=</span> <span style="color: #000000;">&#40;</span><span style="color: #FF0000;">int</span><span style="color: #000000;">&#41;</span>a<span style="color: #008000;">;</span>
		<span style="color: #0600FF;">else</span>
			val <span style="color: #008000;">=</span> <span style="color: #000000;">&#40;</span><span style="color: #000000;">&#40;</span>Thunk<span style="color: #008000;">&lt;</span><span style="color: #FF0000;">int</span><span style="color: #008000;">&gt;</span><span style="color: #000000;">&#41;</span>a<span style="color: #000000;">&#41;</span>.<span style="color: #0000FF;">Value</span><span style="color: #008000;">;</span>
		<span style="color: #0600FF;">return</span> val <span style="color: #008000;">*</span> val<span style="color: #008000;">;</span>
	<span style="color: #000000;">&#125;</span><span style="color: #000000;">&#41;</span><span style="color: #008000;">;</span>
<span style="color: #000000;">&#125;</span></pre></div></div>

<p>Outra forma de também lidar com esse problema é criar duas versões da mesma função, uma que recebe valores resolvidos e outra apenas thunks. Fazer dessa forma é vantagem quando podemos provar o uso estrito dos valores em questão. Por fim, acho que o maior problema ser achar uma forma de representar um thunk usando o mínimo possível de memória.</p>
<p>No nosso exemplo, em uma plataforma 32bits, Trunk<T> usa 20 bytes, Func<T> usa mais 40 e outros 8 da closure[3]. Ou seja, começa usando 68, coisa pacas. Podemos fazer algumas mudanças nisso. Dado que não existe null em Haskell podemos remover o atributo resolved e simplesmente verificar se closure é ou não null. Segundo, em vez criar 1 delegate toda vez podemos fazer caching dele e armazenar as variáveis capturadas no próprio thunk. Algo como:</p>

<div class="wp_syntax"><div class="code"><pre class="csharp" style="font-family:monospace;">abstract <span style="color: #FF0000;">class</span> Thunk<span style="color: #008000;">&lt;</span>T<span style="color: #008000;">&gt;</span> <span style="color: #000000;">&#123;</span>
	<span style="color: #0600FF;">public</span> abstract T Value <span style="color: #000000;">&#123;</span> get<span style="color: #008000;">;</span> <span style="color: #000000;">&#125;</span>
<span style="color: #000000;">&#125;</span>
&nbsp;
<span style="color: #FF0000;">class</span> ThunkWithVars<span style="color: #008000;">&lt;</span>T,V<span style="color: #008000;">&gt;</span> <span style="color: #008000;">:</span> Thunk<span style="color: #008000;">&lt;</span>T<span style="color: #008000;">&gt;</span> <span style="color: #000000;">&#123;</span>
	T value<span style="color: #008000;">;</span>
	Func<span style="color: #008000;">&lt;</span>V, T<span style="color: #008000;">&gt;</span> closure<span style="color: #008000;">;</span>
	V vars<span style="color: #008000;">;</span>
&nbsp;
	<span style="color: #0600FF;">public</span> ThunkWithVars <span style="color: #000000;">&#40;</span>Func<span style="color: #008000;">&lt;</span>V,T<span style="color: #008000;">&gt;</span> closure, V vars<span style="color: #000000;">&#41;</span> <span style="color: #000000;">&#123;</span>
		<span style="color: #0600FF;">this</span>.<span style="color: #0000FF;">closure</span> <span style="color: #008000;">=</span> closure<span style="color: #008000;">;</span>
		<span style="color: #0600FF;">this</span>.<span style="color: #0000FF;">vars</span> <span style="color: #008000;">=</span> vars<span style="color: #008000;">;</span>
	<span style="color: #000000;">&#125;</span>
&nbsp;
	<span style="color: #0600FF;">public</span> <span style="color: #0600FF;">override</span> T Value <span style="color: #000000;">&#123;</span>
		get <span style="color: #000000;">&#123;</span>
			<span style="color: #0600FF;">if</span> <span style="color: #000000;">&#40;</span>closure <span style="color: #008000;">!=</span> <span style="color: #0600FF;">null</span><span style="color: #000000;">&#41;</span> <span style="color: #000000;">&#123;</span>
				value <span style="color: #008000;">=</span> closure <span style="color: #000000;">&#40;</span>vars<span style="color: #000000;">&#41;</span><span style="color: #008000;">;</span>
				closure <span style="color: #008000;">=</span> null<span style="color: #008000;">;</span>
				vars <span style="color: #008000;">=</span> <span style="color: #0600FF;">default</span> <span style="color: #000000;">&#40;</span>V<span style="color: #000000;">&#41;</span><span style="color: #008000;">;</span>
			<span style="color: #000000;">&#125;</span>
			<span style="color: #0600FF;">return</span> value<span style="color: #008000;">;</span>
		<span style="color: #000000;">&#125;</span>
	<span style="color: #000000;">&#125;</span>
<span style="color: #000000;">&#125;</span>
&nbsp;
<span style="color: #0600FF;">static</span> Func<span style="color: #008000;">&lt;</span>Thunk<span style="color: #008000;">&lt;</span><span style="color: #FF0000;">int</span><span style="color: #008000;">&gt;</span>, <span style="color: #FF0000;">int</span><span style="color: #008000;">&gt;</span> square_resolve <span style="color: #008000;">=</span> <span style="color: #000000;">&#40;</span>a<span style="color: #000000;">&#41;</span> <span style="color: #008000;">=&gt;</span> a.<span style="color: #0000FF;">Value</span> <span style="color: #008000;">*</span> a.<span style="color: #0000FF;">Value</span><span style="color: #008000;">;</span>
&nbsp;
Thunk<span style="color: #008000;">&lt;</span><span style="color: #FF0000;">int</span><span style="color: #008000;">&gt;</span> square <span style="color: #000000;">&#40;</span>Thunk <span style="color: #008000;">&lt;</span><span style="color: #FF0000;">int</span><span style="color: #008000;">&gt;</span> a<span style="color: #000000;">&#41;</span> <span style="color: #000000;">&#123;</span>
	<span style="color: #0600FF;">return</span> <span style="color: #008000;">new</span> ThunkWithVars<span style="color: #008000;">&lt;</span><span style="color: #FF0000;">int</span>, Thunk<span style="color: #008000;">&lt;</span><span style="color: #FF0000;">int</span><span style="color: #008000;">&gt;&gt;</span> <span style="color: #000000;">&#40;</span>square_resolve, a<span style="color: #000000;">&#41;</span><span style="color: #008000;">;</span>
<span style="color: #000000;">&#125;</span></pre></div></div>

<p>Usando essa codificação Thunk continua usando 20 bytes porém nos livramos dos demais objetos, um ganho de 70% no final das contas. Poderíamos economizar outros 4 se juntarmos as variáveis closure e value em uma só caso T fosse do tipo referência &#8211; ou manter o resultado boxed. Mesmo sem isso, 20 bytes já é um valor razoável, conseguir o mesmo em uma JVM é basicamente impossível sem muita ginástica.</p>
<p>Qual a performance dessa solução? Segundo o pessoal do GHC, em média 95%-98% dos thunks gerados são resolvidos. Com um generational GC, a maioria vira lixo efêmero. Ou seja, não existe muita razão para uma VM tradicional ser mais lenta que a do GHC, o principal fator nesse caso é, sem dúvida, o compilador, que pode gerar pedaços de código inteiros sem uso de thunk.</p>
<p>[1] É muito comum em Haskell gerar código que não funciona sem lazy evaluation, como geradores de listas infinitas.<br />
[2] Nesse exemplo vou trapacear e tornar as funções mono-mórficas e usar int no lugar de Number para simplificar o código.<br />
[3] Nesse caso estou ignorando quanto de memória as variáveis capturadas usam.</p>
]]></content:encoded>
			<wfw:commentRss>http://www.kumpera.net/blog/index.php/2010/01/09/implementando-haskell-em-vms-tradicionais-parte-2/feed/</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>Lançado Mono 2.2 com estréia de Mono.Simd</title>
		<link>http://www.kumpera.net/blog/index.php/2009/01/14/lancado-mono-22-com-estreia-de-monosimd/</link>
		<comments>http://www.kumpera.net/blog/index.php/2009/01/14/lancado-mono-22-com-estreia-de-monosimd/#comments</comments>
		<pubDate>Thu, 15 Jan 2009 01:36:43 +0000</pubDate>
		<dc:creator>kumpera</dc:creator>
				<category><![CDATA[Performance]]></category>
		<category><![CDATA[Programming]]></category>
		<category><![CDATA[mono]]></category>
		<category><![CDATA[mono simd programming performance]]></category>

		<guid isPermaLink="false">http://www.kumpera.net/blog/?p=125</guid>
		<description><![CDATA[Acabou de ser lançado versão 2.2 do Mono. Foram vários meses de trabalho e muito suor em corrigir centenas de bugs para podermos fazer nosso melhor release de todos os tempos. Dentro das novidades gostaria de destacar duas relativa ao time que participo. A primeira é o novo JIT baseado em uma representação intermediaria linear, [...]]]></description>
			<content:encoded><![CDATA[<p>Acabou de ser l<a href="http://www.mono-project.com/Release_Notes_Mono_2.2">ançado versão 2.2 do Mono</a>. Foram vários meses de trabalho e muito suor em corrigir centenas de bugs para podermos fazer nosso melhor release de todos os tempos. Dentro das novidades gostaria de destacar duas relativa ao time que participo. A primeira é o novo JIT baseado em uma representação intermediaria linear, os ganhos de performance podem chegar em até 50% e, também importante, o código do JIT ficou muito mais simples e extensível.  A segunda novidade, resultado da maior flexibilidade do mono, é a disponibilização preliminar da biblioteca Mono.Simd, que permite usar a unidade vetorial de processadores modernos.</p>
<p>A impossibilidade utilizar a unidade vetorial a partir de linguagens gerenciadas sempre foi uma das principais críticas dos desenvolvedores C e C++ sob a viabilidade em utilizá-las para código rico em calculo matemático. Isso agora é passado e usando mono e C# é possível gerar código com de alta performance similar ao possível com linguagens de baixo nível.</p>
<p>Para se ter uma ideia das possibilidades, um simples exemplo que transforma uma série de vetores com uma mesma matriz chega a ser 3x mais rápido usando Mono.Simd que o código não vetorial em C, Java ou C#. Isso sem perder as vantagens de se utilizar uma linguagem de alto nível e segura. Mas vamos ao código:</p>

<div class="wp_syntax"><div class="code"><pre class="csharp" style="font-family:monospace;"><span style="color: #008080; font-style: italic;">//Primeiro transformação usando ponto flutuante normal</span>
    <span style="color: #0600FF;">public</span> <span style="color: #0600FF;">static</span> <span style="color: #0600FF;">void</span> Transform <span style="color: #000000;">&#40;</span><span style="color: #0600FF;">ref</span> Matrix matrix, <span style="color: #0600FF;">ref</span> Vector vector, <span style="color: #0600FF;">ref</span> Vector result<span style="color: #000000;">&#41;</span>
    <span style="color: #000000;">&#123;</span>
        result.<span style="color: #0000FF;">x</span> <span style="color: #008000;">=</span> vector.<span style="color: #0000FF;">x</span> <span style="color: #008000;">*</span> matrix.<span style="color: #0000FF;">m00</span> <span style="color: #008000;">+</span> vector.<span style="color: #0000FF;">y</span> <span style="color: #008000;">*</span> matrix.<span style="color: #0000FF;">m01</span> <span style="color: #008000;">+</span> vector.<span style="color: #0000FF;">z</span> <span style="color: #008000;">*</span> matrix.<span style="color: #0000FF;">m02</span> <span style="color: #008000;">+</span> vector.<span style="color: #0000FF;">w</span> <span style="color: #008000;">*</span> matrix.<span style="color: #0000FF;">m03</span><span style="color: #008000;">;</span>
        result.<span style="color: #0000FF;">y</span> <span style="color: #008000;">=</span> vector.<span style="color: #0000FF;">x</span> <span style="color: #008000;">*</span> matrix.<span style="color: #0000FF;">m10</span> <span style="color: #008000;">+</span> vector.<span style="color: #0000FF;">y</span> <span style="color: #008000;">*</span> matrix.<span style="color: #0000FF;">m11</span> <span style="color: #008000;">+</span> vector.<span style="color: #0000FF;">z</span> <span style="color: #008000;">*</span> matrix.<span style="color: #0000FF;">m12</span> <span style="color: #008000;">+</span> vector.<span style="color: #0000FF;">w</span> <span style="color: #008000;">*</span> matrix.<span style="color: #0000FF;">m13</span><span style="color: #008000;">;</span>
        result.<span style="color: #0000FF;">z</span> <span style="color: #008000;">=</span> vector.<span style="color: #0000FF;">x</span> <span style="color: #008000;">*</span> matrix.<span style="color: #0000FF;">m20</span> <span style="color: #008000;">+</span> vector.<span style="color: #0000FF;">y</span> <span style="color: #008000;">*</span> matrix.<span style="color: #0000FF;">m21</span> <span style="color: #008000;">+</span> vector.<span style="color: #0000FF;">z</span> <span style="color: #008000;">*</span> matrix.<span style="color: #0000FF;">m22</span> <span style="color: #008000;">+</span> vector.<span style="color: #0000FF;">w</span> <span style="color: #008000;">*</span> matrix.<span style="color: #0000FF;">m23</span><span style="color: #008000;">;</span>
        result.<span style="color: #0000FF;">w</span> <span style="color: #008000;">=</span> vector.<span style="color: #0000FF;">x</span> <span style="color: #008000;">*</span> matrix.<span style="color: #0000FF;">m30</span> <span style="color: #008000;">+</span> vector.<span style="color: #0000FF;">y</span> <span style="color: #008000;">*</span> matrix.<span style="color: #0000FF;">m31</span> <span style="color: #008000;">+</span> vector.<span style="color: #0000FF;">z</span> <span style="color: #008000;">*</span> matrix.<span style="color: #0000FF;">m32</span> <span style="color: #008000;">+</span> vector.<span style="color: #0000FF;">w</span> <span style="color: #008000;">*</span> matrix.<span style="color: #0000FF;">m33</span><span style="color: #008000;">;</span>
    <span style="color: #000000;">&#125;</span>
&nbsp;
<span style="color: #008080; font-style: italic;">//Agora usando Mono.Simd</span>
    <span style="color: #0600FF;">public</span> <span style="color: #0600FF;">static</span> <span style="color: #0600FF;">void</span> Transform <span style="color: #000000;">&#40;</span><span style="color: #0600FF;">ref</span> Matrix4f matrix, <span style="color: #0600FF;">ref</span> Vector4f vector, <span style="color: #0600FF;">ref</span> Vector4f result<span style="color: #000000;">&#41;</span>
    <span style="color: #000000;">&#123;</span>
        Vector4f v <span style="color: #008000;">=</span> vector<span style="color: #008000;">;</span>
&nbsp;
        Vector4f r0 <span style="color: #008000;">=</span> v.<span style="color: #0000FF;">Shuffle</span> <span style="color: #000000;">&#40;</span>ShuffleSel.<span style="color: #0000FF;">XFromX</span> <span style="color: #008000;">|</span> ShuffleSel.<span style="color: #0000FF;">YFromX</span> <span style="color: #008000;">|</span> ShuffleSel.<span style="color: #0000FF;">ZFromX</span> <span style="color: #008000;">|</span> ShuffleSel.<span style="color: #0000FF;">WFromX</span><span style="color: #000000;">&#41;</span><span style="color: #008000;">;</span>
        Vector4f r1 <span style="color: #008000;">=</span> v.<span style="color: #0000FF;">Shuffle</span> <span style="color: #000000;">&#40;</span>ShuffleSel.<span style="color: #0000FF;">XFromY</span> <span style="color: #008000;">|</span> ShuffleSel.<span style="color: #0000FF;">YFromY</span> <span style="color: #008000;">|</span> ShuffleSel.<span style="color: #0000FF;">ZFromY</span> <span style="color: #008000;">|</span> ShuffleSel.<span style="color: #0000FF;">WFromY</span><span style="color: #000000;">&#41;</span><span style="color: #008000;">;</span>
        Vector4f r2 <span style="color: #008000;">=</span> v.<span style="color: #0000FF;">Shuffle</span> <span style="color: #000000;">&#40;</span>ShuffleSel.<span style="color: #0000FF;">XFromZ</span> <span style="color: #008000;">|</span> ShuffleSel.<span style="color: #0000FF;">YFromZ</span> <span style="color: #008000;">|</span> ShuffleSel.<span style="color: #0000FF;">ZFromZ</span> <span style="color: #008000;">|</span> ShuffleSel.<span style="color: #0000FF;">WFromZ</span><span style="color: #000000;">&#41;</span><span style="color: #008000;">;</span>
        Vector4f r3 <span style="color: #008000;">=</span> v.<span style="color: #0000FF;">Shuffle</span> <span style="color: #000000;">&#40;</span>ShuffleSel.<span style="color: #0000FF;">XFromW</span> <span style="color: #008000;">|</span> ShuffleSel.<span style="color: #0000FF;">YFromW</span> <span style="color: #008000;">|</span> ShuffleSel.<span style="color: #0000FF;">ZFromW</span> <span style="color: #008000;">|</span> ShuffleSel.<span style="color: #0000FF;">WFromW</span><span style="color: #000000;">&#41;</span><span style="color: #008000;">;</span>
&nbsp;
        r0 <span style="color: #008000;">=</span> r0 <span style="color: #008000;">*</span> matrix.<span style="color: #0000FF;">row0</span><span style="color: #008000;">;</span>
        r1 <span style="color: #008000;">=</span> r1 <span style="color: #008000;">*</span> matrix.<span style="color: #0000FF;">row1</span><span style="color: #008000;">;</span>
        r2 <span style="color: #008000;">=</span> r2 <span style="color: #008000;">*</span> matrix.<span style="color: #0000FF;">row2</span><span style="color: #008000;">;</span>
        r3 <span style="color: #008000;">=</span> r3 <span style="color: #008000;">*</span> matrix.<span style="color: #0000FF;">row3</span><span style="color: #008000;">;</span>
&nbsp;
        result <span style="color: #008000;">=</span> r0 <span style="color: #008000;">+</span> r1 <span style="color: #008000;">+</span> r2 <span style="color: #008000;">+</span> r3<span style="color: #008000;">;</span>
    <span style="color: #000000;">&#125;</span></pre></div></div>

<p>O código usando Mono.Simd fica um pouco mais complexo, principalmente até se entender como Shuffle e outros combinadores funcionam. Porém quando executado, a versão tradicional precisa executar 16 operações de multiplicação e 12 de soma contra 4 multiplicações 3 somas simd na versão vetorizada. A diferença é clara e o números também.</p>
<p>O release 2.2 foi o resultado de muito esforço pelo time por traz do mono e todos seus contribuidores. Esse release, porém, é especial para mim pois Mono.Simd é resultado de alguns meses de trabalho meu e fiquei muito feliz com a repercussão positiva que recebemos &#8211; vários projetos estão estudando como implementar bibliotecas de matemática vetorial usando ela.</p>
]]></content:encoded>
			<wfw:commentRss>http://www.kumpera.net/blog/index.php/2009/01/14/lancado-mono-22-com-estreia-de-monosimd/feed/</wfw:commentRss>
		<slash:comments>12</slash:comments>
		</item>
		<item>
		<title>A Nova onda de interpretadores</title>
		<link>http://www.kumpera.net/blog/index.php/2008/09/30/a-nova-onda-de-interpretadores/</link>
		<comments>http://www.kumpera.net/blog/index.php/2008/09/30/a-nova-onda-de-interpretadores/#comments</comments>
		<pubDate>Tue, 30 Sep 2008 05:00:33 +0000</pubDate>
		<dc:creator>kumpera</dc:creator>
				<category><![CDATA[Performance]]></category>
		<category><![CDATA[Programming]]></category>
		<category><![CDATA[language design]]></category>
		<category><![CDATA[Dalvik]]></category>
		<category><![CDATA[interpretadors]]></category>
		<category><![CDATA[máquinas virtuais]]></category>
		<category><![CDATA[SquirelFish]]></category>

		<guid isPermaLink="false">http://www.kumpera.net/blog/?p=92</guid>
		<description><![CDATA[Interpretadores voltaram a ser um assunto muito discutido devido aos resultados alcansados pela SquirrelFish (interpretador de javascript do Webkit) e ao fato da VM do Android também usar um. Curiosamente, ambas VMs são baseadas em registradores em vez de pilha, como as máquinas virtuais tradicionais como JVM e CLR.
A grande diferença está na forma como [...]]]></description>
			<content:encoded><![CDATA[<p>Interpretadores voltaram a ser um assunto muito discutido devido aos resultados alcansados pela SquirrelFish (interpretador de javascript do Webkit) e ao fato da VM do Android também usar um. Curiosamente, ambas VMs são baseadas em registradores em vez de pilha, como as máquinas virtuais tradicionais como JVM e CLR.</p>
<p>A grande diferença está na forma como valores intermediários são calculados. Em uma VM baseada em pilha, operandos são adicionados ao topo da pilha enquanto operadores os retiram e realizam alguma operação. Uma máquina baseada em registradores usa de variaveis para armazenar resultados intermediários.</p>
<p>Para exemplificar melhor, o código &#8220;a = b * c + 10&#8243; ficaria algo como:</p>
<p>Máquina de pilha:</p>

<div class="wp_syntax"><div class="code"><pre class="c" style="font-family:monospace;">push_local <span style="color: #ff0000;">'b'</span>
push_local <span style="color: #ff0000;">'c'</span>
mul
push_const <span style="color: #0000dd;">10</span>
add
store_local <span style="color: #ff0000;">'a'</span></pre></div></div>

<p>Máquina de registradores:</p>

<div class="wp_syntax"><div class="code"><pre class="c" style="font-family:monospace;">load_local R0 <span style="color: #339933;">&lt;=</span> <span style="color: #ff0000;">'b'</span>
load_local R1 <span style="color: #339933;">&lt;=</span> <span style="color: #ff0000;">'c'</span>
mul R2 <span style="color: #339933;">&lt;=</span> R0<span style="color: #339933;">,</span> R1
load_const R3<span style="color: #339933;">,</span> <span style="color: #0000dd;">10</span>
add R4 <span style="color: #339933;">&lt;=</span> R2<span style="color: #339933;">,</span> R3
store_local <span style="color: #ff0000;">'a'</span> <span style="color: #339933;">&lt;=</span> R4</pre></div></div>

<p>A primeira vista a diferença é quase que estética, porém se considerarmos quanto espaço precisamos para representar o código e o número de operações de leitura e escrita à memória cada uma faz, vamos notar como são técnicas fundamentalmente diferentes.</p>
<p>Vamos assumir um formato bem simples para representar o código de ambas, que é um byte para designar a operação seguido de um byte para cada operando. Aplicando esta forma, temos.</p>
<p>Máquina de pilha:</p>

<div class="wp_syntax"><div class="code"><pre class="c" style="font-family:monospace;">push_local <span style="color: #ff0000;">'b'</span> <span style="color: #666666; font-style: italic;">//2 bytes</span>
push_local <span style="color: #ff0000;">'c'</span> <span style="color: #666666; font-style: italic;">//2 bytes</span>
mul <span style="color: #666666; font-style: italic;">//1 byte</span>
push_const <span style="color: #0000dd;">10</span> <span style="color: #666666; font-style: italic;">//2 bytes</span>
add <span style="color: #666666; font-style: italic;">//1 byte</span>
store_local <span style="color: #ff0000;">'a'</span> <span style="color: #666666; font-style: italic;">//2 bytes</span></pre></div></div>

<p>Total: <strong>10 bytes</strong></p>
<p>Máquina de registradores:</p>

<div class="wp_syntax"><div class="code"><pre class="c" style="font-family:monospace;">load_local R0 <span style="color: #339933;">&lt;=</span> <span style="color: #ff0000;">'b'</span> <span style="color: #666666; font-style: italic;">//3 bytes</span>
load_local R1 <span style="color: #339933;">&lt;=</span> <span style="color: #ff0000;">'c'</span> <span style="color: #666666; font-style: italic;">//3 bytes</span>
mul R2 <span style="color: #339933;">&lt;=</span> R0<span style="color: #339933;">,</span> R1 <span style="color: #666666; font-style: italic;">//4 bytes</span>
load_const R3 <span style="color: #339933;">&lt;=</span> <span style="color: #0000dd;">10</span> <span style="color: #666666; font-style: italic;">//3 bytes</span>
add R4 <span style="color: #339933;">&lt;=</span> R2<span style="color: #339933;">,</span> R3 <span style="color: #666666; font-style: italic;">//4 bytes</span>
store_local <span style="color: #ff0000;">'a'</span> <span style="color: #339933;">&lt;=</span> R4 <span style="color: #666666; font-style: italic;">//3 bytes</span></pre></div></div>

<p>Total: <strong>20 bytes</strong></p>
<p>Fica claro aqui que uma máquina de pilha admite uma representação muito mais compacta do mesmo programa. Em geral essa relação não é tão gritante, pois existe uma série de formas de diminuir o número de instruções necessárias para uma máquina de registradores.</p>
<p>Agora vamos analisar quantas operações de memória cada máquina faz, verificando cada instrução individualmente.</p>
<p>Maquina de pilha:</p>
<p><em>push_local</em> X</p>
<ol>
<li>lê a variavel local X</li>
<li>lê o endereço atual do topo da pilha</li>
<li>escreve X no topo da pilha</li>
<li>incrementa e armazena o novo valor para topo da pilha</li>
</ol>
<p><em>mul / add</em></p>
<ol>
<li>lê o endereço atual do topo da pilha</li>
<li>lê o valor do topo da pilha</li>
<li>lê o valor abaixo do topo da pilha</li>
<li>escreve o resultado no local abaixo do topo da pilha</li>
<li>decrementa e armazena o novo valor para topo da pilha</li>
</ol>
<p><em>push_const</em> X</p>
<ol>
<li>lê o endereço atual do topo da pilha</li>
<li>escreve X no topo da pilha</li>
<li>incrementa e armazena o novo valor para topo da pilha</li>
</ol>
<p>store_local X</p>
<ol>
<li>lê o endereço atual do topo da pilha</li>
<li>lê o valor no topo da pilha</li>
<li>escreve o valor em X</li>
<li>decrementa e armazena o novo valor para topo da pilha</li>
</ol>
<p>Aplicando esses valores ao programa em questão temos um total de <strong>25 operações</strong>.</p>
<p>Máquina de registradores:</p>
<p><em>load_local</em> X <= Y</p>
<ol>
<li>lê o valor da variavel local Y</li>
<li>escreve o valor no registrador X</li>
</ol>
<p><em>mul / add</em> X <= Y, Z</p>
<ol>
<li>lê o valor do registrador local Y</li>
<li>lê o valor do registrador local Z</li>
<li>escreve o valor no registrador X</li>
</ol>
<p><em>load_const</em> X <= Y</p>
<ol>
<li>escreve o valor de Y no registrador X</li>
</ol>
<p><em>store_local</em> X <= Y</p>
<ol>
<li>lê o valor do registrador Y</li>
<li>escreve o valor no registrador X</li>
</ol>
<p>Fazendo a conta, temos um total de <strong>13 operações</strong>.</p>
<p>Ironicamente neste caso, uma máquina de registradores leva uma significante vantagem em relação a uma máquina de pilha. Apesar de se tratar de uma simplificação, na prática o resultado é o mesmo. Em máquinas modernas onde o custo de acessar a memória principal é muito grande, uma máquina de registradores tem o potencial de ser mais rápida.</p>
<p>Essas dicotomia entre qual admite uma representação mais compacta e qual permite uma implementação mais eficiente é fundamental na arquitetura de qualquer máquina virtual. Apesar disso, existe muito além da simples forma de funcionar do interpretador que define a real performance da VM, ainda mais se falarmos de linguagens dinâmicas. Em um artigo futuro pretendo mostrar uma implementação de exemplo de ambos os tipos de máquinas virtuais.</p>
]]></content:encoded>
			<wfw:commentRss>http://www.kumpera.net/blog/index.php/2008/09/30/a-nova-onda-de-interpretadores/feed/</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>Sobre performance e benckmarks</title>
		<link>http://www.kumpera.net/blog/index.php/2008/08/03/sobre-performance-e-benckmarks/</link>
		<comments>http://www.kumpera.net/blog/index.php/2008/08/03/sobre-performance-e-benckmarks/#comments</comments>
		<pubDate>Sun, 03 Aug 2008 07:56:29 +0000</pubDate>
		<dc:creator>kumpera</dc:creator>
				<category><![CDATA[Performance]]></category>
		<category><![CDATA[Programming]]></category>

		<guid isPermaLink="false">http://www.kumpera.net/blog/?p=85</guid>
		<description><![CDATA[Performance nunca foi um assunto fácil. Medir é complicado, comparar resultados é quase irrelevante, comparar linguagens é inútil. Porém as pessoas continuam insistindo no assunto, de um lado os que defendem linguagens gerenciadas dizendo que elas são tão rápidas quanto C ou C++; do outro lado ficam a demonstrar como isso não é possível.
Não se [...]]]></description>
			<content:encoded><![CDATA[<p>Performance nunca foi um assunto fácil. Medir é complicado, comparar resultados é quase irrelevante, comparar linguagens é inútil. Porém as pessoas continuam insistindo no assunto, de um lado os que defendem linguagens gerenciadas dizendo que elas são tão rápidas quanto C ou C++; do outro lado ficam a demonstrar como isso não é possível.</p>
<p>Não se trata apenas do uso de micro-benchmarks, ou de otimizar melhor um alvo, ou da metodologia ser falha. Se trata apenas de falta de comprometimento. Não se pode medir performance daquilo que não se está envolvido pois o resultado é irrelevante. Qualquer tentantiva nessa direção só vai provar que a pessoa é tola.</p>
<p>Quando falo em compromisso me refiro ao fato de que não adianta tentar medir a performance sem estar envolvido na melhora dela. Medições devem ser feitas em softwares reais, não de fabricações de Oz. E o corolário disso é que comprar linguagens é um exercício de futilidade, pois não faz sentido manter o mesmo programa em Java e C++, por exemplo.</p>
<p>A performance de um programa é fator de muito mais coisas que apenas a velocidade bruta do meio de execução &#8211; seja uma VM ou código nativo. Principalmente para grandes sistemas, a complexidade arquitetural e características sistêmicas tem muito maior influencia. Já vi isso acontecer demais para ignorar.</p>
<p>Isso significa que micro-benchmarks são irrelevantes e pura obra do ego de seus criadores? Não, pelo contrário, diz apenas que quase sempre as pessoas envolvidas não estão comprometidas com os resultados. Um exemplo prático, medir a performance com ponto flutuante do gcc só é útil aos seus desenvolvedores, pois somente estes tem o compromisso em melhorá-la, para os demais é uma enorme perda de tempo.</p>
<p>Toda discussão de &#8220;Minha linguagem é mais rápida que a sua&#8221; parece esquecer de que para aplicações de significativa complexidade a maioria dos micro-benchmaks usados são irrelevantes. Para a maioria dos projetos, oque importa é quanto a plataforma torna fácil escrever programas que sejam rápidos. Não adianta ser super veloz se o desenvolvedor vai precisar fazer uma enorme série de sacrifícios para manter sua produtividade.</p>
<p>Existe uma série de exemplos bem intrigantes de como escolhas óbvias trazem resultados não óbvios em termos de performance. Desde gerenciamento de memória a execução especializada de código. Porém não espero ver as pessoas se eduquem nesse ponto, pois é uma causa fundamentalmente perdida, já que não existe razão suficiente contra um ego ferido e o fato de alguém na internet estar errada.</p>
]]></content:encoded>
			<wfw:commentRss>http://www.kumpera.net/blog/index.php/2008/08/03/sobre-performance-e-benckmarks/feed/</wfw:commentRss>
		<slash:comments>5</slash:comments>
		</item>
	</channel>
</rss>

