32 bit aadress 64 bit operandiga x86-l :: Hinnavaatluse Foorumid

kalvis · Kreisi kasutaja liitunud: 20.10.2009

Kood ise on 99% 32 bit assembleris ja integreeritud C-ga (C roll väheoluline, kutsub vaid asm fn-i välja ilma parameetriteta). Kompilaatoriks on MinGW32 (on ka installitud MinGW64)
Kood töötab suurepäraselt kui mõlemad 32 bitisena kompileerida. Mõlemad tuleb kompileerida sama bitilisusena.
Kood kompileerub nii 32 bit kui 64 bit modes ja käivitub .exe Kuid 64 bit keskonnas hakkas lollusi viskama ja hangus. Viga leitud - selleks on kaudse adresseerimise jump tabelid (aadress [4*eax+table]), paraku see käsk vajalik ja mõttetu oleks need ümber teha kuna ASM kood vaid 2K ja mul ei ole miskist otsast vajalik 64 bit adresseeringut. Jump tabeleid on seeeest väga palju

Kogu programmis on vaid kaks käsku kus oleks hea kasutada 64 bit registrit tehteks. Võitu palju ei anna (praegu lahendatud ca 10 lisakäsuga, töötab) Windows 10 on 64 bbit, prose samuti. Kuid see lahendus võimaldaks just 64 bit koodi kasutada. Mul ei ole tulemas mitte ühtegi programmi mis vajaks rohkem kui 4GB mäluruumi adresseerimist. Seega minu vajadus olekski 32 bit adresseering 64 bit käsutöötlusega!

KAS saab NASM-is ja MinGW-s kompileerida nii, et kasutaks 32 bit aadresse (ei viskaks sinna jmp käsu ette 64 bit prefiksit), kuid aadress oleks default kogu programmis 32 bit. Kunagi ammu kui 64 bit prosed tulid siis mainiti, et selline võti on olemas. Programm kompileeritakse nagu 64 bit ikka aga default on kasutusel 32 bit aadressid. No ei leia googlega. Praegu on säte kas kõik 32 bit või kõik 64 bit ja raibe (64 bitis) kompileerib kõikide käskude aadressid 64 bitistena mistõttu mistahes kaudne adresseering läheb vigaseks. On keegi kokku puutunud?

Vahepeal leidsin NASM manuaalist sobiva vastuse. Kui on BITS 64 siis default on 64 bit aadress ja prefiks 0x67 saab kasutada 32 bit aadressi. Seega peaks programm kompileerumi õigesti, teadmata on kas see on NASM bug või teeb linkur lollusi (eeldab, et aadressid on kõik 64 bit ja sodib valed aadressid külge)

Tuhnides AMD 64 bit manuaalis leidsin vist ka algse veapõhjuse ülesse. Nimelt järgnevad käsud CALL, JMP, LOOP POP ja PUSH on kõik default 64 bit. Ju siis NASM bug kui JMP [4*eax+jumptable] ei suudeta aru saada (peab olema 32 bit aadress), et peab olema 32 bit aadress ja teeb omaloomingust rax aadressiks. Kuigi ma katsetasin SHL, eax,2 ja ADD eax,jumptable ja seega peaks AMD manuaali järgi olema RAX ülemine osa nullitud siis käsk jmp [eax] pani ikka puusse. Ju siis osad käsud ei nullinud seda ülaosa ära. See sai kontrollitud eax omas õiget 32 bit aadressi ja näiteks mov [temp],eax ja jmp [temp] töötas perfektselt (temp oli tegelt nullitud quadword)

Põhimõtteliselt on küsimus lahendatud.

Küsiksin üle vaid ühe asja - kuidas on õige MinGW64 ja NASM kood kokku kompileerida/linkida.
nasm -f win64 katse.asm -o katse.o
x86_64-w64-mingw32-gcc -m64 -c main.c -o main.o
x86_64-w64-mingw32-gcc -o katse.exe main.o katse.o

Annab veateateta väljundi kuid programm kräshib - st loodetud väljundit ei tule. Seejuures ei toimi enam 32 bit tasandil kahe mooduli funktsiooni ühendamine mis toimis C- on extern int katse(); ja väljakutse a=katse(), Asmis aga peab olema _katse väljakutse aadressil.
64 bit annab sellele et funktsiooni ei leita (ja 32 bit töötab!) Kui panen mõlemad C ja asmis _katse - veateateta aga ei tööta! Kui panen katse ja katse mõlemas - ei leia.
Ja ei leia ühtegi näidet kuidas 64 bit koodi vaja kompileerida...

Leidsin vea ülesse, kahjuks alati sama viga - veak tihend klaviatuuri ja tooli vahel. Pisasi aga olin kogemata väljakutsutava fn kirjutanud data sektsiooni. 32bit kompileerub ja töötab aga 64 bit annab veateateta väljumise.

Case closed.

RassK · HV Guru liitunud: 17.01.2007

Nii huvi pärast, milline erivajadus sunnib AMD64 peal tegelema nii madalas kihis ?

Supiplex · HV veteran liitunud: 11.12.2002

Ma kalvise motivatsiooni ei tea, aga üldiselt on raua otsa progemine ajurakke taastava mõjuga (ja ühtlasi õpetlik, aga see on rohkem kõrvalmõju). Eriti kui oled päev otsa kellegi teise freimvöörgi otsa õhulosse ehitanud

Hack on!

kalvis · Kreisi kasutaja liitunud: 20.10.2009

klf · HV vaatleja liitunud: 08.03.2005

Noh, ma kommenteeriks ka veidi...

Esiteks, 32-bitine aadress ja x86-64 arhitektuur on sisuliselt x32 ABI. Kas windows seda toetab, ma ei tea, aga gcc puhul -mx32 valib vastava rezhiimi.

Teiseks, raua otsa kirjutamine arendab ajutegevust küll, aga seda saab teha üldjuhul otse C-s. Näiteks, kui on soov lugeda int tüüpi muutuja keskelt
välja kolmas bait, kirjutab programmeerija ((foo >> 16) & 0xff). Kompilaator teeb sellest nii nagu heaks arvab, kas sama shift+mask, või siis emiteerib
üheainsa bextr instruktsiooni.

Selleks, et kood lendaks, tuleb enamasti alustada andmestruktuuride mälupaigutuse, pakkimise, striimimise, prefetchimise ja muu sellisega. Seda
loogikat on palju tõhusam C-s kirjutada. Kui on soov mingi operatsioon käsitsi paralleliseerida, siis seda saab ka enamasti C-s teha. Gcc ja clang (llvm)
teevad praktiliselt kõik SIMD käsud kättesaadavaks x86 intrinsic'utena. Lisad "#include <x86intrin.h>" ja võid kasutada igat sorti tehteid. Näiteks
_mm_shuffle_epi8() abil saad 16-le baidile suva permutatsioone rakendada. Masinkoodis on see mõistagi üks instruktsioon. (Kuigi, gcc/llvm omavad ka
__builtin_shuffle/__builtin_shufflevector, niiet selle jaoks ei pruugi isegi intrinsikut rakendada.)

Ülal mainiti ka stringide otsimist andmemassiividest. Jumala eest, selle tarvis soovitaks siiski alustada sobiva algoritmi valikuga (üks tuntumaid on
Boyer-Moore), mitte valida naiivne brute-force.

Lühidalt, raualähedast SIMD koodi saab kirjutada ka C keeles, tehes seda struktuurselt, paindlikult ja ülevaatlikult.

Edit. Mainiks veel ära niipalju, et C teeb koodikirjutaja eest ära suure hulga tööd, sh register allocation'i. Intrinsikute vahetulemusi hoitakse
loomulikult registrites nii palju kui võimalik, samamoodi nagu optimiseeritakse tavalist skalaarkoodi.

kalvis · Kreisi kasutaja liitunud: 20.10.2009

See AND ja shift on ikkagi kaks lisakäsku, samas kui baiti keskel saab lugeda absoluutselt ilma ühegi lisakäsuta! Kui seda läheks vähe vaja siis olen otse C-s kasutanud.
Kuigi C-s nende masinkoodi derivaat funktsioonidega saab üksikuid SIMD käsutöötlusi teha, ei saa nendega teha just kahte või kolme omavahel seotuid edukalt - kus sul põhiargument on xmm registris ja töötled jadamisi. C käsk salvestab mällu tagasi, mistõttu kogu SIMD ilu läheb kaotsi. Assembleri efektiivsus ongi just registriga maksimaalses töötluses - laetakse lähteandmeid niipalju kui vaja registrisse, tehakse võimalikult keerulised tehted registritega ära ja alles siis lõppsaadus mällu tagasi. Muidu läheb kogu aur vaid registrisse laadimisele ja mällu tagasi laadimisele ja see on prose takte raiskav. Jah, kood töötab. Olen üksikuid instrinct käske kasutanud, üheainsa assembleri käsu pärast tõesti ei tasu hakata assembleris librarit kirjutama.

gcc ja windows toetavad kõiki võimalikke ABIsi, selleks kasutatakse vajaduse korral assembleri funktsioonidel registercall või standardcall atribuute. Ma eelistan registercall kasutada - nagu öeldud siis saan funktsiooni argumendid otse registrisse ja seda isegi win32 korral. Ainult et keegi ajunõder (tõenäoliselt M$) tegi need Linuxis ja Windowsis erinevalt just win64 koodi juhtumil (win32 koodis on registrite järjekord sama windowsis ja Linuxis). Saab ka siis aga hakkab rohkem perverssuseks minema opsüsteemi direktiiviga mängides.

uu · HV vaatleja liitunud: 16.08.2015

Ise tegin SMID enamjaolt instricntide peale kus compiler hätta jäi või compatability meetmeid kasutas.
ASMi võrdluseks on hea kiire vahend https://godbolt.org/z/63feG5 , kasvõi 10 tk eri optimiseerimistega eri compilereid ritta võrdluseks kui monitor lai.
Annab ajapikku taju sellest kuidas on õige kirjutada et kompilaator optimiseeriks ise ära.

Üldiselt tundub et ICC on parim ja -O3 astmel ka GNU teeb palju SMID-d kui kood compilerile arusaadav.
+ICC profileerims vahendid head.

Kõige hullem pudelikael on kui palju RAM mäluga lugemist ja väikseid blokke eri paigust mis järjest ei jookse.
In cache kompressiooni algod võivad ka palju muuta kui on võimalik kasutada.