Собираем Perl прямиком из 1987 года

Прочитав новость «Код интерпретатора Perl официально перенесён на GitHub» на ресурсе LINUX.ORG.RU я решил взглянуть на репозиторий Perl 5, который теперь уже находится на GitHub’е.

Удивительно, как трепетно и качественно его перенесли, сохранив не только абсолютно всю 32-летнюю историю проекта, но и багрепорты (попали в Issues), патчи (попали в PRs), релизы и ветки. Надпись «32 years ago» рядом с файлами вызывает невольную улыбку.

Что ещё делать в этот унылейший пятничный вечер, когда на улице неприятно моросит дождь со снегом, а все уличные дорожки погрязли в осенней слякоти? Правильно, красноглазить! Так что я ради эксперимента и интереса решил взять и собрать древний Perl на современной x86_64-машинке с последней версией GCC 9.2.0 в качестве компилятора. Сможет ли такой старый код пройти проверку временем?

Демонстрация работы twm, одного из первых оконных менеджеров для X Window System, на современном дистрибутиве Arch Linux.

Чтобы было совсем уж аутентичненько и некромантненько, я развернул виртуальную машину с голыми иксами и оконным менеджером twm, который тоже родом из 1987 года. Кто знает, может быть Larry Wall писал свой Perl используя именно twm, так сказать bleeding edge technology того времени. Используемый дистрибутив — Arch Linux. Просто потому что в его репозитории есть некоторые полезные вещи, которые впоследствии мне пригодились. Итак, поехали!

Содержание:

1. Подготовка окружения
2. Конфигурирование исходного кода
3. Ошибки файла грамматики yacc
4. Ошибки компиляции кода на «C»
5. Исправление некоторых ошибок Segmentation fault
6. Подведение итогов и полезные ссылки

1. Подготовка окружения

Сперва устанавливаем на развёрнутую операционную систему в виртуальной машине весь необходимый для сборки и редактирования исходного кода джентльменский набор утилит и компиляторов: gcc, make, vim, git, gdb и т. д. Некоторые из них уже установлены, а другие доступны в мета-пакете base-devel, его нужно обязательно установить, если он не установлен. После того, как окружение готово к активным действиям, получаем копию исходного кода Perl 32-летней выдержки!

$ git clone https://github.com/Perl/perl5/ --depth=1 -b perl-1.0

1	$ git clone https://github.com/Perl/perl5/ --depth=1 -b perl-1.0

Благодаря особенностям Git’а нам не требуется тянуть кучу файлов, чтобы добраться до самого первого релиза проекта:

* commit 8d063cd8450e59ea1c611a2f4f5a21059a2804f1 (grafted, HEAD, tag: perl-1.0)
  Commit:     Larry Wall <lwall@jpl-devvax.jpl.nasa.gov>
  CommitDate: Fri Dec 18 00:00:00 1987 +0000

      a "replacement" for awk and sed

* commit 8d063cd8450e59ea1c611a2f4f5a21059a2804f1 (grafted, HEAD, tag: perl-1.0)

Commit: Larry Wall <[email protected]>

CommitDate: Fri Dec 18 00:00:00 1987 +0000

a "replacement" for awk and sed

Мы скачиваем лишь небольшой объём данных и в итоге репозиторий с исходным кодом первой версии Perl занимает всего 150 КБ.

В то тёмное и дремучее время не было такой элементарной вещи, как autotools (счастье-то какое!), однако в корне репозитория имеется скрипт Configure. В чём же дело? А дело в том, что Larry Wall и является изобретателем подобных скриптов, которые позволяли сгенерировать Makefile’ы под самые разношёрстные UNIX-машины того времени. Как гласит одноимённая статья про эти скрипты в английской Википедии, Larry Wall ещё три года до написания Perl’а поставлял файл Configure с некоторым своим софтом, например, программой для чтения новостей rn. Впоследствии Perl не стал исключением и для его сборки использовался уже обкатанный на многих машинах скрипт. Позже эту идею подхватили и другие разработчики, например, программисты из компании Trolltech. Они использовали для конфигурации сборки своего фреймворка Qt похожий скрипт, который многие путают с configure из autotools. Именно зоопарк таких вот скриптов от разных разработчиков и послужил толчком к созданию средства для их упрощённой и автоматической генерации.

<< Перейти к содержанию

2. Конфигурирование исходного кода

Скрипт Configure «старой закалки», что уже видно по его Shebang‘у, в котором имеется пробел:

$ cat Configure | head -5
#! /bin/sh
#
# If these # comments don't work, trim them.  Don't worry about any other
# shell scripts, Configure will trim # comments from them for you.
#

$ cat Configure | head -5

#! /bin/sh

# If these # comments don't work, trim them. Don't worry about any other

# shell scripts, Configure will trim # comments from them for you.

Согласно комментарию, оказывается существовали shell’ы, в скриптах которых не было возможности оставлять комментарии! Ситуация с пробелом выглядит непривычно, но когда-то подобное было нормой, см. дополнительную информацию по ссылкам здесь. Самое главное, что для современных shell-интерпретаторов нет никакой разницы, имеется там пробел или нет.

Хватит лирики, переходим к делу! Запускаем скрипт и видим интересное предположение, которое оказывается не совсем верным:

$ ./Configure
(I see you are using the Korn shell.  Some ksh's blow up on Configure,
especially on exotic machines.  If yours does, try the Bourne shell instead.)

Beginning of configuration questions for perl kit.

Checking echo to see how to suppress newlines...
...using -n.
Type carriage return to continue.  Your cursor should be here-->

$ ./Configure

(I see you are using the Korn shell. Some ksh's blow up on Configure,

especially on exotic machines. If yours does, try the Bourne shell instead.)

Beginning of configuration questions for perl kit.

Checking echo to see how to suppress newlines...

...using -n.

Type carriage return to continue. Your cursor should be here-->

Удивительно, что скрипт является интерактивным и содержит огромную кучу различной справочной информации. Модель взаимодействия с пользователем построена на диалогах, анализируя ответы на которые скрипт меняет свои параметры, по которым он впоследствии будет генерировать Makefile’ы. Меня лично заинтересовала проверка того, все ли команды оболочки находятся на своём месте?

Locating common programs...
expr is in /bin/expr.
sed is in /bin/sed.
echo is in /bin/echo.
cat is in /bin/cat.
rm is in /bin/rm.
mv is in /bin/mv.
cp is in /bin/cp.
tr is in /bin/tr.
mkdir is in /bin/mkdir.
sort is in /bin/sort.
uniq is in /bin/uniq.
grep is in /bin/grep.

Don't worry if any of the following aren't found...
test is in /bin/test.
egrep is in /bin/egrep.
I don't see Mcc out there, offhand.

Locating common programs...

expr is in /bin/expr.

sed is in /bin/sed.

echo is in /bin/echo.

cat is in /bin/cat.

rm is in /bin/rm.

mv is in /bin/mv.

cp is in /bin/cp.

tr is in /bin/tr.

mkdir is in /bin/mkdir.

sort is in /bin/sort.

uniq is in /bin/uniq.

grep is in /bin/grep.

Don't worry if any of the following aren't found...

test is in /bin/test.

egrep is in /bin/egrep.

I don't see Mcc out there, offhand.

Видимо раньше это было далеко не так. Интересно, а за что отвечает утилита Mcc, которую не удалось найти? Самое забавное, что этот скрипт в лучших хакерских традициях того времени полон дружелюбного юмора. Сейчас подобное практически не увидишь:

Is your "test" built into sh? [n] (OK to guess) OK

Checking compatibility between /bin/echo and builtin echo (if any)...
They are compatible.  In fact, they may be identical.

Your C library is in /lib/libc.a.  You're normal.

Extracting names from /lib/libc.a for later perusal...done

Hmm...  Looks kind of like a USG system, but we'll see...

Congratulations.  You aren't running Eunice.

It's not Xenix...

Nor is it Venix...

Checking your sh to see if it knows about # comments...
Your sh handles # comments correctly.

Okay, let's see if #! works on this system...
It does.

Checking out how to guarantee sh startup...
Let's see if '#!/bin/sh' works...
Yup, it does.

Is your "test" built into sh? [n] (OK to guess) OK

Checking compatibility between /bin/echo and builtin echo (if any)...

They are compatible. In fact, they may be identical.

Your C library is in /lib/libc.a. You're normal.

Extracting names from /lib/libc.a for later perusal...done

Hmm... Looks kind of like a USG system, but we'll see...

Congratulations. You aren't running Eunice.

It's not Xenix...

Nor is it Venix...

Checking your sh to see if it knows about # comments...

Your sh handles # comments correctly.

Okay, let's see if #! works on this system...

It does.

Checking out how to guarantee sh startup...

Let's see if '#!/bin/sh' works...

Yup, it does.

На большинство вопросов я ответил значением по умолчанию, либо тем, что мне предложил скрипт. Особенно порадовал и удивил запрос флажков для компилятора и линковщика:

Any additional cc flags? [none]

Any additional ld flags? [none]

Any additional cc flags? [none]

Any additional ld flags? [none]

Туда можно прописать что-нибудь интересное, например, -m32 для сборки 32-битного исполняемого файла или библиотеку, которая требуется при линковке. На последний вопрос скрипта:

Now you need to generate make dependencies by running "make depend".
You might prefer to run it in background: "make depend > makedepend.out &"
It can take a while, so you might not want to run it right now.

Run make depend now? [n] y

Now you need to generate make dependencies by running "make depend".

You might prefer to run it in background: "make depend > makedepend.out &"

It can take a while, so you might not want to run it right now.

Run make depend now? [n] y

Я ответил положительно. Древняя утилита makedepend, судя по её страничке в Википедии, была создана в самом начале жизни проекта Athena, для облегчения работы с Makefile’ами. Этот проект подарил нам X Window System, Kerberos, Zephyr и повлиял на множество других привычных сегодня вещей. Всё это замечательно, но вот только откуда эта утилита в современном Linux-окружении? Она давно уже никем и нигде не используется. Но если посмотреть внимательно в корень репозитория, оказывается, что Larry Wall написал её скриптовую версию-заменитель, которую нам заботливо распаковал и выполнил конфигурационный скрипт.

Выполнение makedepend завершилось с некоторыми странными ошибками:

./makedepend: command substitution: line 82: unexpected EOF while looking for matching `''
./makedepend: command substitution: line 83: syntax error: unexpected end of file
./makedepend: command substitution: line 82: unexpected EOF while looking for matching `''
./makedepend: command substitution: line 83: syntax error: unexpected end of file

./makedepend: command substitution: line 82: unexpected EOF while looking for matching `''

./makedepend: command substitution: line 83: syntax error: unexpected end of file

./makedepend: command substitution: line 82: unexpected EOF while looking for matching `''

./makedepend: command substitution: line 83: syntax error: unexpected end of file

Возможно именно они повлекли за собой проблему из-за которой сгенерированные сборочные файлы Makefile оказались немного пожёванными:

$ make
make: *** No rule to make target '<built-in>', needed by 'arg.o'.  Stop.

1 2	$ make make: *** No rule to make target '<built-in>', needed by 'arg.o'. Stop.

Лезть в дебри замысловатой shell-лапши утилиты makedepend мне решительно не хотелось и я решил тщательно присмотреться к Makefile’ам, в которых выявилась странная закономерность:

arg.o: arg.c
arg.o: arg.h
arg.o: array.h
arg.o: <built-in>
arg.o: cmd.h
arg.o: <command-line>
arg.o: config.h
arg.o: EXTERN.h
...
array.o: arg.h
array.o: array.c
array.o: array.h
array.o: <built-in>
array.o: cmd.h
array.o: <command-line>
array.o: config.h
array.o: EXTERN.h
...

arg.o: arg.c

arg.o: arg.h

arg.o: array.h

arg.o: <built-in>

arg.o: cmd.h

arg.o: <command-line>

arg.o: config.h

arg.o: EXTERN.h

...

array.o: arg.h

array.o: array.c

array.o: array.h

array.o: <built-in>

array.o: cmd.h

array.o: <command-line>

array.o: config.h

array.o: EXTERN.h

...

Видимо какая-то утилита неправильно вставила свои аргументы в выхлоп. Взяв в руки ~~топор~~ утилиту sed я решил немного поправить это дело:

$ sed -i '/built-in/d' Makefile
$ sed -i '/command-line/d' Makefile

1 2	$ sed -i '/built-in/d' Makefile $ sed -i '/command-line/d' Makefile

На удивление трюк сработал и Makefile’ы заработали как надо!

<< Перейти к содержанию

3. Ошибки файла грамматики yacc

Было бы просто невероятно, если бы 32-летний код взял и собрался без каких-либо проблем. К сожалению, чудес не бывает. Изучая дерево исходного кода я наткнулся на файл perl.y, представляющий собой описания грамматики для утилиты yacc, которая в современных дистрибутивах давно заменена на bison. Скрипт, находящийся по пути /usr/bin/yacc, просто вызывает bison в режиме совместимости c yacc. Вот только эта совместимость не является полной и при обработке этого файла сыпется огромная куча ошибок, исправлять которые я не умею да и не очень хочу, ведь есть альтернативное решение, о котором я узнал совсем недавно.

Буквально год или два назад Helio Chissini de Castro, являющийся разработчиком KDE, занимался похожей работой и адаптировал KDE 1, 2 и Qt 1, 2 под современные окружения и компиляторы. Я заинтересовался его работой, скачал исходные коды проектов, но при сборке наткнулся на подобный подводный камень из-за несовместимости yacc и bison, которые использовались для построения древней версии метакомпилятора moc. Впоследствии мне удалось найти решение этой проблемы в виде замены bison на утилиту byacc (Berkeley Yacc), которая оказалась совместимой со старыми грамматиками для yacc и была доступна во многих дистрибутивах Linux.

Простая замена yacc на byacc в системе сборке меня тогда выручила, правда ненадолго, поскольку чуть позже в новых версиях byacc всё-таки сломали совместимость с yacc, отломив отладку, связанную со сущностью yydebug. Поэтому пришлось немного исправлять грамматику утилиты.

Итак, стратегия исправления ошибок построения в файле perl.y была предсказана предыдущим опытом: устанавливаем утилиту byacc, меняем yacc на byacc во всех Makefile, затем вырезаем отовсюду yydebug. Эти действия решили все проблемы с этим файлом, ошибки исчезли и компиляция продолжилась.

<< Перейти к содержанию

4. Ошибки компиляции кода на «C»

Древний код Perl’а пестрил ужасами вроде давным-давно устаревшей и всеми забытой нотации определений функций вида K&R:

format(orec,fcmd)
register struct outrec *orec;
register FCMD *fcmd;
{
    ...
}

STR *
hfetch(tb,key)
register HASH *tb;
char *key;
{
    ...
}

/*VARARGS1*/
fatal(pat,a1,a2,a3,a4)
char *pat;
{
    fprintf(stderr,pat,a1,a2,a3,a4);
    exit(1);
}

format(orec,fcmd)

{

...

}

STR *

hfetch(tb,key)

char *key;

{

...

}

/*VARARGS1*/

fatal(pat,a1,a2,a3,a4)

char *pat;

{

fprintf(stderr,pat,a1,a2,a3,a4);

exit(1);

}

Подобные особенности встречались, например, в коде Microsoft Word 1.1a, который тоже достаточно древний. Первый стандарт языка программирования «C», под названием «C89» появится лишь через два года. Современные компиляторы умеют работать с таким кодом, а вот некоторые IDE не осиливают разбирать подобные определения и подсвечивают их как синтаксические ошибки, например, раньше таким грешил Qt Creator до того, как парсинг кода в нём перевели на библиотеку libclang.

Компилятор GCC 9.2.0, изрыгая огромное количество предупреждений, взялся компилировать древний код первой версии Perl. Простыни из предупреждений были настолько велики, что для того чтобы добраться до ошибки, приходилось пролистывать несколько страниц выхлопа вверх. На моё удивление, большинство ошибок компиляции были типовыми и в основном связанными с предопределёнными дефайнами, которые играли роль флажков для сборки.

Работа современного компилятора GCC 9.2.0 и отладчика GDB 8.3.1 в оконном менеджере twm и эмуляторе терминала xterm.

Под дефайном STDSTDIO Larry Wall экспериментировал с какой-то древней и нестандартной библиотекой языка программирования «C», а под дефайном DEBUGGING была отладочная информация с пресловутым yydebug, про который я упоминал выше. По умолчанию эти флажки были включены. Выключив их в файле perl.h и добавив несколько забытых дефайнов мне удалось значительно уменьшить количество ошибок.

Другой тип ошибок — переопределения ныне стандартизированных функций стандартной библиотеки и слоя POSIX. В проекте имеется свой malloc(), setenv() и другие сущности, которые создавали конфликты.

В парочке мест были определены статические функции без объявлений. Компиляторы со временем стали строже относиться к этой проблеме и превратили предупреждение в ошибку. Ну и напоследок парочка забытых хедеров, куда же без них.

На моё удивление патч для кода 32-летней давности получился настолько крошечным, что его можно целиком привести здесь:

diff --git a/malloc.c b/malloc.c
index 17c3b27..a1dfe9c 100644
--- a/malloc.c
+++ b/malloc.c
@@ -79,6 +79,9 @@ static    u_int nmalloc[NBUCKETS];
 #include <stdio.h>
 #endif

+static findbucket(union overhead *freep, int srchlen);
+static morecore(register bucket);
+
 #ifdef debug
 #define    ASSERT(p)   if (!(p)) botch("p"); else
 static
diff --git a/perl.h b/perl.h
index 3ccff10..e98ded5 100644
--- a/perl.h
+++ b/perl.h
@@ -6,16 +6,16 @@
  *
  */

-#define DEBUGGING
-#define STDSTDIO   /* eventually should be in config.h */
+//#define DEBUGGING
+//#define STDSTDIO /* eventually should be in config.h */

 #define VOIDUSED 1
 #include "config.h"

-#ifndef BCOPY
-#   define bcopy(s1,s2,l) memcpy(s2,s1,l);
-#   define bzero(s,l) memset(s,0,l);
-#endif
+//#ifndef BCOPY
+//#   define bcopy(s1,s2,l) memcpy(s2,s1,l);
+//#   define bzero(s,l) memset(s,0,l);
+//#endif

 #include <stdio.h>
 #include <ctype.h>
@@ -183,11 +183,11 @@ double atof();
 long time();
 struct tm *gmtime(), *localtime();

-#ifdef CHARSPRINTF
-    char *sprintf();
-#else
-    int sprintf();
-#endif
+//#ifdef CHARSPRINTF
+//    char *sprintf();
+//#else
+//    int sprintf();
+//#endif

 #ifdef EUNICE
 #define UNLINK(f) while (unlink(f) >= 0)
diff --git a/perl.y b/perl.y
index 16f8a9a..1ab769f 100644
--- a/perl.y
+++ b/perl.y
@@ -7,6 +7,7 @@
  */

 %{
+#include <stdlib.h>
 #include "handy.h"
 #include "EXTERN.h"
 #include "search.h"
diff --git a/perly.c b/perly.c
index bc32318..fe945eb 100644
--- a/perly.c
+++ b/perly.c
@@ -246,12 +246,14 @@ yylex()
     static bool firstline = TRUE;

   retry:
+#ifdef DEBUGGING
 #ifdef YYDEBUG
     if (yydebug)
    if (index(s,'\n'))
        fprintf(stderr,"Tokener at %s",s);
    else
        fprintf(stderr,"Tokener at %s\n",s);
+#endif
 #endif
     switch (*s) {
     default:
diff --git a/stab.c b/stab.c
index b9ef533..9757cfe 100644
--- a/stab.c
+++ b/stab.c
@@ -7,6 +7,7 @@
  */

 #include <signal.h>
+#include <errno.h>
 #include "handy.h"
 #include "EXTERN.h"
 #include "search.h"
diff --git a/util.h b/util.h
index 4f92eeb..95cb9bf 100644
--- a/util.h
+++ b/util.h
@@ -28,7 +28,7 @@ void  prexit();
 char   *get_a_line();
 char   *savestr();
 int    makedir();
-void   setenv();
+//void setenv();
 int    envix();
 void   notincl();
 char   *getval();

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

diff --git a/malloc.c b/malloc.c

index 17c3b27..a1dfe9c 100644

--- a/malloc.c

+++ b/malloc.c

@@ -79,6 +79,9 @@ static u_int nmalloc[NBUCKETS];

#include <stdio.h>

#endif

+static findbucket(union overhead *freep, int srchlen);

+static morecore(register bucket);

#ifdef debug

#define ASSERT(p) if (!(p)) botch("p"); else

static

diff --git a/perl.h b/perl.h

index 3ccff10..e98ded5 100644

--- a/perl.h

+++ b/perl.h

@@ -6,16 +6,16 @@

-#define DEBUGGING

-#define STDSTDIO /* eventually should be in config.h */

+//#define DEBUGGING

+//#define STDSTDIO /* eventually should be in config.h */

#define VOIDUSED 1

#include "config.h"

-#ifndef BCOPY

-# define bcopy(s1,s2,l) memcpy(s2,s1,l);

-# define bzero(s,l) memset(s,0,l);

-#endif

+//#ifndef BCOPY

+//# define bcopy(s1,s2,l) memcpy(s2,s1,l);

+//# define bzero(s,l) memset(s,0,l);

+//#endif

#include <stdio.h>

#include <ctype.h>

@@ -183,11 +183,11 @@ double atof();

long time();

struct tm *gmtime(), *localtime();

-#ifdef CHARSPRINTF

- char *sprintf();

-#else

- int sprintf();

-#endif

+//#ifdef CHARSPRINTF

+// char *sprintf();

+//#else

+// int sprintf();

+//#endif

#ifdef EUNICE

#define UNLINK(f) while (unlink(f) >= 0)

diff --git a/perl.y b/perl.y

index 16f8a9a..1ab769f 100644

--- a/perl.y

+++ b/perl.y

@@ -7,6 +7,7 @@

+#include <stdlib.h>

#include "handy.h"

#include "EXTERN.h"

#include "search.h"

diff --git a/perly.c b/perly.c

index bc32318..fe945eb 100644

--- a/perly.c

+++ b/perly.c

@@ -246,12 +246,14 @@ yylex()

static bool firstline = TRUE;

retry:

+#ifdef DEBUGGING

#ifdef YYDEBUG

if (yydebug)

if (index(s,'\n'))

fprintf(stderr,"Tokener at %s",s);

else

fprintf(stderr,"Tokener at %s\n",s);

+#endif

#endif

switch (*s) {

default:

diff --git a/stab.c b/stab.c

index b9ef533..9757cfe 100644

--- a/stab.c

+++ b/stab.c

@@ -7,6 +7,7 @@

#include <signal.h>

+#include <errno.h>

#include "handy.h"

#include "EXTERN.h"

#include "search.h"

diff --git a/util.h b/util.h

index 4f92eeb..95cb9bf 100644

--- a/util.h

+++ b/util.h

@@ -28,7 +28,7 @@ void prexit();

char *get_a_line();

char *savestr();

int makedir();

-void setenv();

+//void setenv();

int envix();

void notincl();

char *getval();

Отличный результат для 32-летнего кода! Ошибка линковки undefined reference to `crypt' была исправлена добавлением в Makefile директивы -lcrypt соответствующей библиотеки libcrypt, после чего я наконец-то получил вожделенный исполняемый файл интерпретатора Perl:

$ file perl
perl: ELF 64-bit LSB pie executable, x86-64, version 1 (SYSV), dynamically linked, interpreter /lib64/ld-linux-x86-64.so.2, BuildID[sha1]=fd952ceae424613568530b3a2ca88ebd6477e0ae, for GNU/Linux 3.2.0, not stripped

1 2	$ file perl perl: ELF 64-bit LSB pie executable, x86-64, version 1 (SYSV), dynamically linked, interpreter /lib64/ld-linux-x86-64.so.2, BuildID[sha1]=fd952ceae424613568530b3a2ca88ebd6477e0ae, for GNU/Linux 3.2.0, not stripped

<< Перейти к содержанию

5. Исправление некоторых ошибок Segmentation fault

После практически беспроблемной компиляции удача отвернулась от меня. Сразу после запуска собранного интерпретатора Perl’а я получил несколько странных ошибок и Segmentation fault в конце:

$ ./perl -e 'print "Hello World!\n";'
Corrupt malloc ptr 0x2db36040 at 0x2db36000
Corrupt malloc ptr 0x2db36880 at 0x2db36800
Corrupt malloc ptr 0x2db36080 at 0x2db36040
Corrupt malloc ptr 0x2db37020 at 0x2db37000
Segmentation fault (core dumped)

$ ./perl -e 'print "Hello World!\n";'

Corrupt malloc ptr 0x2db36040 at 0x2db36000

Corrupt malloc ptr 0x2db36880 at 0x2db36800

Corrupt malloc ptr 0x2db36080 at 0x2db36040

Corrupt malloc ptr 0x2db37020 at 0x2db37000

Segmentation fault (core dumped)

Грепнув исходный текст по фразе Corrupt malloc, оказалось, что вместо системного malloc() вызывается какой-то кастомный аллокатор родом из 1982 года. Интересно, что в одном из строковых литералов в его исходном коде прописано Berkeley, а в комментарии рядом — Caltech. Сотрудничество между этими университетами видимо тогда было очень сильно. В общем, я закомментировал этот хакерский аллокатор и пересобрал исходный код. Ошибки порчи памяти исчезли, а Segmentation fault остался. Значит дело было не в этом и теперь нужно расчехлять отладчик.

Запустив программу под gdb я обнаружил что падение происходит при вызове функции создания временного файла mktemp() из libc:

$ gdb --args ./perl -e 'print "Hello, World!\n";'
(gdb) r
Starting program: /home/exl/perl5/perl -e print\ \"Hello\ World\!\\n\"\;

Program received signal SIGSEGV, Segmentation fault.
0x00007ffff7cd20c7 in __gen_tempname () from /usr/lib/libc.so.6
(gdb) bt
#0  0x00007ffff7cd20c7 in __gen_tempname () from /usr/lib/libc.so.6
#1  0x00007ffff7d71577 in mktemp () from /usr/lib/libc.so.6
#2  0x000055555556bb08 in main ()

$ gdb --args ./perl -e 'print "Hello, World!\n";'

(gdb) r

Starting program: /home/exl/perl5/perl -e print\ \"Hello\ World\!\\n\"\;

Program received signal SIGSEGV, Segmentation fault.

0x00007ffff7cd20c7 in __gen_tempname () from /usr/lib/libc.so.6

(gdb) bt

#0 0x00007ffff7cd20c7 in __gen_tempname () from /usr/lib/libc.so.6

#1 0x00007ffff7d71577 in mktemp () from /usr/lib/libc.so.6

#2 0x000055555556bb08 in main ()

На эту функцию, кстати, ранее ругался линковщик. Не компилятор, а именно линковщик, что меня удивило:

/usr/bin/ld: perl.o: in function `main':
perl.c:(.text+0x978c): warning: the use of `mktemp' is dangerous, better use `mkstemp' or `mkdtemp'

1 2	/usr/bin/ld: perl.o: in function `main': perl.c:(.text+0x978c): warning: the use of `mktemp' is dangerous, better use `mkstemp' or `mkdtemp'

Первая мысль, которая наверняка вам тоже пришла в голову — заменить небезопасную функцию mktemp() на mkstemp(), что я именно и сделал. Предупреждение линковщика исчезло, но Segmentation fault в этом месте всё равно остался, только теперь он был в функции mkstemp().

Следовательно теперь нужно очень внимательно посмотреть на кусок кода, который сопряжён с этой функцией. Там я обнаружил довольно странную вещь, которая выделена в этом сниппете:

char *e_tmpname = "/tmp/perl-eXXXXXX";

int main(void) {
   mktemp(e_tmpname);
   e_fp = f_open(e_tmpname, "w");

   ...
}

char *e_tmpname = "/tmp/perl-eXXXXXX";

int main(void) {

mktemp(e_tmpname);

e_fp = f_open(e_tmpname, "w");

...

}

Получается mktemp() пытается поменять литерал по маске, который находится в секции .rodata, что заведомо обречено на провал. Или всё-таки 32 года назад подобное было допустимо, встречалось в коде и даже как-то работало?

Конечно, замена char *e_tmpname на char e_tmpname[] исправила этот Segmentation fault и я смог получить то, на что убил целый вечер:

$ ./perl -e 'print "Hello World!\n";'
$ Hello, World!
$ ./perl -e '$a = 5; $b = 6.3; $c = $a+$b; print $c."\n";'
$ 11.3000000000000007
$ ./perl -v
$Header: perly.c,v 1.0 87/12/18 15:53:31 root Exp $
Patch level: 0

$ ./perl -e 'print "Hello World!\n";'

$ Hello, World!

$ ./perl -e '$a = 5; $b = 6.3; $c = $a+$b; print $c."\n";'

$ 11.3000000000000007

$ ./perl -v

$Header: perly.c,v 1.0 87/12/18 15:53:31 root Exp $

Patch level: 0

Исполнение из командной строки мы проверили, а что насчёт файла? Я скачал первый попавшийся «Hello World» для языка программирования Perl из интернета:

################# test.pl
#!/usr/bin/perl
#
# The traditional first program.

# Strict and warnings are recommended.
use strict;
use warnings;

# Print a message.
print "Hello, World!\n";

################# test.pl

#!/usr/bin/perl

# The traditional first program.

# Strict and warnings are recommended.

use strict;

use warnings;

# Print a message.

print "Hello, World!\n";

Затем я попробовал его запустить, но, увы, меня снова ждал Segmentation fault. На этот раз совершенно в другом месте:

$ gdb --args ./perl test.pl
(gdb) r
Starting program: /home/exl/perl5/perl test.pl

Program received signal SIGSEGV, Segmentation fault.
0x00007ffff7d1da75 in __strcpy_sse2_unaligned () from /usr/lib/libc.so.6
(gdb) bt
#0  0x00007ffff7d1da75 in __strcpy_sse2_unaligned () from /usr/lib/libc.so.6
#1  0x00005555555629ea in yyerror ()
#2  0x0000555555568dd6 in yyparse ()
#3  0x000055555556bd4f in main ()

$ gdb --args ./perl test.pl

(gdb) r

Starting program: /home/exl/perl5/perl test.pl

Program received signal SIGSEGV, Segmentation fault.

0x00007ffff7d1da75 in __strcpy_sse2_unaligned () from /usr/lib/libc.so.6

(gdb) bt

#0 0x00007ffff7d1da75 in __strcpy_sse2_unaligned () from /usr/lib/libc.so.6

#1 0x00005555555629ea in yyerror ()

#2 0x0000555555568dd6 in yyparse ()

#3 0x000055555556bd4f in main ()

В функции yyerror() обнаружился следующий интересный момент, привожу оригинальный сниппет:

// perl.y
char *tokename[] = {
    "256",
    "word",
    "append",
    ...

// perl.c
yyerror(s)
char *s;
{
     char tmpbuf[128];
     char *tname = tmpbuf;

     if (yychar > 256) {
     tname = tokename[yychar-256]; // ???
         if (strEQ(tname,"word"))
             strcpy(tname,tokenbuf); // Oops!
         else if (strEQ(tname,"register"))
             sprintf(tname,"$%s",tokenbuf); // Oops!

     ...

// perl.y

char *tokename[] = {

"256",

"word",

"append",

...

// perl.c

yyerror(s)

char *s;

{

char tmpbuf[128];

char *tname = tmpbuf;

if (yychar > 256) {

tname = tokename[yychar-256]; // ???

if (strEQ(tname,"word"))

strcpy(tname,tokenbuf); // Oops!

else if (strEQ(tname,"register"))

sprintf(tname,"$%s",tokenbuf); // Oops!

...

Снова ситуация похожа на ту, про которую я писал выше. Снова модифицируются данные в секции .rodata. Может быть это просто опечатки из-за Copy-Paste и вместо tname хотели написать tmpbuf? Или же действительно за подобным стоит какой-то скрытый смысл? В любом случае, замена char *tokename[] на char tokename[][32] убирает ошибку Segmentation fault и Perl говорит нам следующее:

$ ./perl test.pl
syntax error in file test.pl at line 7, next token "strict"
Execution aborted due to compilation errors.

$ ./perl test.pl

syntax error in file test.pl at line 7, next token "strict"

Execution aborted due to compilation errors.

Получается, не нравятся ему всякие новомодные use strict, вот что он нам оказывается пытался сказать! Если удалить или закомментировать эти строчки в файле, то программа запускается:

$ ./perl test.pl
Hello, World!

1 2	$ ./perl test.pl Hello, World!

<< Перейти к содержанию

6. Подведение итогов и полезные ссылки

Фактически я добился своей цели и заставил древний код родом из 1987 года не только компилироваться, но и работать в современном Linux-окружении. Несомненно, там ещё осталась большая куча различных ошибок Segmentation faults, возможно связанных с размером указателя на 64-битной архитектуре. Всё это можно вычистить посидев несколько вечерков с отладчиком наперевес. Вот только это не слишком приятное и довольно нудное занятие. Ведь изначально этот эксперимент планировался как развлечение на скучный вечер, а не как полноценная работа, которая будет доведена до конца. Имеется ли какая-нибудь практическая польза от проведённых действий? Может быть когда-нибудь какой-нибудь цифровой археолог наткнётся на эту статью и она ему будет полезна. Но в реальном мире даже опыт, извлечённый из подобных изысканий, по моему мнению, не слишком уж ценен.

Если кому-либо интересно, выкладываю набор из двух патчей. Первый исправляет ошибки компиляции, а второй — некоторые ошибки Segmentation fault.

Некоторые полезные ссылки:

P.S. Спешу огорчить любителей деструктивных однострочников, здесь подобное не работает. Возможно версия Perl’а слишком уж старая для таких развлечений.
P.P.S. Всем добра и приятных выходных. Спасибо пользователю kawaii_neko за небольшое исправление.

Update 28-Oct-2019: Пользователь форума LINUX.ORG.RU, использующий ник utf8nowhere, привёл в своём комментарии к этой статье довольно интересные ссылки, информация из которых не только проясняет ситуацию с изменяемыми строковыми литералами, но и даже рассматривает описанную выше проблему использования функции mktemp()! Позволю себе процитировать эти источники, в которых рассказано про различные несовместимости между нестандартизированным «K&R C» и «GNU C»:

Incompatibilities of GCC
There are several noteworthy incompatibilities between GNU C and K&R (non-ISO) versions of C.

GCC normally makes string constants read-only. If several identical-looking string constants are used, GCC stores only one copy of the string.
One consequence is that you cannot call mktemp with a string constant argument. The function mktemp always alters the string its argument points to.

Another consequence is that sscanf does not work on some systems when passed a string constant as its format control string or input. This is because sscanf incorrectly tries to write into the string constant. Likewise fscanf and scanf.

The best solution to these problems is to change the program to use char-array variables with initialization strings for these purposes instead of string constants. But if this is not possible, you can use the -fwritable-strings flag, which directs GCC to handle string constants the same way most C compilers do.

Источник: Using the GNU Compiler Collection (GCC 3.3) Official Manual.

Флаг компилятора -fwritable-strings был объявлен устаревшим в GCC 3.4 и окончательно удалён в GCC 4.0.

ANSI C rationale | String literals
String literals are specified to be unmodifiable. This specification allows implementations to share copies of strings with identical text, to place string literals in read-only memory, and perform certain optimizations. However, string literals do not have the type array of const char, in order to avoid the problems of pointer type checking, particularly with library functions, since assigning a pointer to const char to a plain pointer to char is not valid. Those members of the Committee who insisted that string literals should be modifiable were content to have this practice designated a common extension (see F.5.5).

Existing code which modifies string literals can be made strictly conforming by replacing the string literal with an initialized static character array. For instance,

C

char *p, *make_temp(char *str); /* ... */ p = make_temp("tempXXX"); /* make_temp overwrites the literal */ /* with a unique name */

1
2
3
4
5

char *p, *make_temp(char *str);
    /* ... */
p = make_temp("tempXXX");
        /* make_temp overwrites the literal */
        /* with a unique name */

can be changed to:

C

char *p, *make_temp(char *str); /* ... */ { static char template[ ] = "tempXXX"; p = make_temp( template ); }

1
2
3
4
5
6

char *p, *make_temp(char *str);
    /* ... */
{
    static char template[ ] = "tempXXX";
    p = make_temp( template );
}

Источник: Rationale for American National Standard for Information Systems, Programming Language C.

Пользователь VarfolomeyKote4ka предложил интересный грязненький хак, который позволяет обойти ошибки Segmentation faults при попытке изменения данных в секции .rodata путём преобразования её в секцию .rwdata. В интернете не так давно появилась очень интересная статья «From .rodata to .rwdata – introduction to memory mapping and LD scripts» за авторством программиста guye1296, как раз рассказывающая о том как провернуть подобный трюк. Для облегчения получения требуемого результата автор статьи подготовил довольно объёмный скрипт для стандартного линковщика ld — rwdata.ld. Достаточно скачать этот скрипт, положить его в корень директории с исходным кодом Perl, подправить флажок LDFLAGS следующим образом: LDFLAGS = -T rwdata.ld, затем пересобрать проект. В итоге имеем следующее:

$ make clean && make -j1
$ mv perl perl_rodata

$ curl -LOJ https://raw.githubusercontent.com/guye1296/ld_script_elf_blog_post/master/rwdata.ld
$ sed -i 's/LDFLAGS =/LDFLAGS = -T rwdata.ld/' Makefile
$ make clean && make -j1
$ mv perl perl_rwdata

$ objdump -s -j .rodata perl_rodata | grep tmp -2
 19da0 21233f5e 7e3d2d25 30313233 34353637  !#?^~=-%01234567
 19db0 38392e2b 262a2829 2c5c2f5b 7c002400  89.+&*(),\/[|.$.
 19dc0 73746465 7272002f 746d702f 7065726c  stderr./tmp/perl
 19dd0 2d655858 58585858 00323536 00617070  -eXXXXXX.256.app
 19de0 656e6400 6c6f6f70 63746c00 66756e63  end.loopctl.func
$ objdump -s -j .rwdata perl_rodata | grep tmp -2
objdump: section '.rwdata' mentioned in a -j option, but not found in any input file

$ objdump -s -j .rwdata perl_rwdata | grep tmp -2
 41d9c0 21233f5e 7e3d2d25 30313233 34353637  !#?^~=-%01234567
 41d9d0 38392e2b 262a2829 2c5c2f5b 7c002400  89.+&*(),\/[|.$.
 41d9e0 73746465 7272002f 746d702f 7065726c  stderr./tmp/perl
 41d9f0 2d655858 58585858 00323536 00617070  -eXXXXXX.256.app
 41da00 656e6400 6c6f6f70 63746c00 66756e63  end.loopctl.func
$ objdump -s -j .rodata perl_rwdata | grep tmp -2
objdump: section '.rodata' mentioned in a -j option, but not found in any input file

$ ./perl_rodata -e 'print "Hello, World!\n";'
Segmentation fault (core dumped)
$ ./perl_rwdata -e 'print "Hello, World!\n";'
Hello, World!

$ make clean && make -j1

$ mv perl perl_rodata

$ curl -LOJ https://raw.githubusercontent.com/guye1296/ld_script_elf_blog_post/master/rwdata.ld

$ sed -i 's/LDFLAGS =/LDFLAGS = -T rwdata.ld/' Makefile

$ make clean && make -j1

$ mv perl perl_rwdata

$ objdump -s -j .rodata perl_rodata | grep tmp -2

19da0 21233f5e 7e3d2d25 30313233 34353637 !#?^~=-%01234567

19db0 38392e2b 262a2829 2c5c2f5b 7c002400 89.+&*(),\/[|.$.

19dc0 73746465 7272002f 746d702f 7065726c stderr./tmp/perl

19dd0 2d655858 58585858 00323536 00617070 -eXXXXXX.256.app

19de0 656e6400 6c6f6f70 63746c00 66756e63 end.loopctl.func

$ objdump -s -j .rwdata perl_rodata | grep tmp -2

objdump: section '.rwdata' mentioned in a -j option, but not found in any input file

$ objdump -s -j .rwdata perl_rwdata | grep tmp -2

41d9c0 21233f5e 7e3d2d25 30313233 34353637 !#?^~=-%01234567

41d9d0 38392e2b 262a2829 2c5c2f5b 7c002400 89.+&*(),\/[|.$.

41d9e0 73746465 7272002f 746d702f 7065726c stderr./tmp/perl

41d9f0 2d655858 58585858 00323536 00617070 -eXXXXXX.256.app

41da00 656e6400 6c6f6f70 63746c00 66756e63 end.loopctl.func

$ objdump -s -j .rodata perl_rwdata | grep tmp -2

objdump: section '.rodata' mentioned in a -j option, but not found in any input file

$ ./perl_rodata -e 'print "Hello, World!\n";'

Segmentation fault (core dumped)

$ ./perl_rwdata -e 'print "Hello, World!\n";'

Hello, World!

Получается, что благодаря такому хаку практически все изменения из второго патча можно просто опустить! Хотя, конечно, привести код к виду который не нарушает стандарты, всё-таки предпочтительнее.

<< Перейти к содержанию

Комментарии: 4

Вячеслав:

07-Ноя-2020 в 23:25:10

Чего то уже год статей никаких. Неужели ничего интересного?

Ответить
1. EXL:
  
  14-Ноя-2020 в 08:35:58
  
  Пока, к сожалению, нет особого времени что-либо писать. Как появится — будут новые статьи.
  
  Ответить
David:

27-Мар-2021 в 19:25:02

Спасибо за статью! Обожаю подобное красноглазие. 🙂

Ответить
1. EXL:
  
  30-Мар-2021 в 12:45:49
  
  Не за что. Будет время — ещё что-нибудь интересное напишу!
  
  Ответить

Содержание:

1. Подготовка окружения

2. Конфигурирование исходного кода

3. Ошибки файла грамматики yacc

4. Ошибки компиляции кода на «C»

5. Исправление некоторых ошибок Segmentation fault

6. Подведение итогов и полезные ссылки

Комментарии: 4

Добавить комментарий Отменить ответ